ACE-Ego : 大晓机器人联合港中文开源的具身操作 VLA 模型

AI工具1小时前发布 FuturX-Editor
4 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

2026年6月17日,大晓机器人联合香港中文大学多媒体实验室(CUHK MMLab)正式发布并开源了全新”一脑多型”具身操作VLA模型——ACE-Ego。这是”以人为中心”(Human-centric)ACE具身研发范式在具身模型预训练领域的核心落地成果。该模型以6,000+小时人类第一视角视频为核心进行预训练,通过大规模第一视角人类视频与多型机器人数据的高效联合预训练,在两大国际权威具身智能基准上双双刷新SOTA纪录,同时在复杂零售场景中展现出强泛化落地能力,为具身智能走向产业规模化落地提供了高性价比技术方案。ACE-Ego : 大晓机器人联合港中文开源的具身操作 VLA 模型

功能特点

  • 双榜登顶:在RoboCasa GR1 TableTop人形桌面操作基准上以72.8%平均成功率夺魁,在RoboTwin 2.0双臂操作基准强域随机化测试中达90.62%成功率,均大幅超越英伟达GR00T、PI π₀.₅、京东JoyAI-RA等主流模型。
  • 一脑多型适配:同一VLA模型通过形态条件编码可适配不同机器人本体,无需为每台机器人单独训练。面对全新未知机型(如ARX双臂机器人),仅需不到200条动作数据即可完成适配部署。
  • 复杂操作执行:支持长周期、强接触的零售级操作,包括塑料袋打包、鞋子装入鞋盒、咖啡定量分装等,覆盖商品整理、打包履约等典型线下零售环节,突破了此前模型仅能完成简单桌面抓取的能力边界。
  • 强环境鲁棒性:从干净场景到强随机化场景性能仅衰减0.5个百分点,远低于行业平均水平,意味着其习得技能具备极强的环境适应性。

优缺点

优点

  • 以海量低成本人类第一视角视频替代昂贵的真机遥操作数据,数据效率极高,大幅降低训练成本。
  • 四大核心机制系统性破解了人机数据在空间、结构、时间、标签质量上的四重异构难题,技术路径清晰且工程友好。
  • 性能增益覆盖全品类任务,盘子叠放、托盘移锅等任务成功率突破98%,证明能力提升来自框架底层优化而非特定任务过拟合。
  • 完全开源,降低具身智能研发门槛,支持二次开发与多本体部署。

缺点

  • 人类视频提取的”伪动作”精度天然低于真实机器人数据,尽管有可靠性自适应机制缓解,但在极端精密操作上仍存在上限。
  • 目前落地验证主要集中在零售场景,更广泛的工业制造、家庭服务等场景的泛化能力仍需更多验证。
  • 部署新本体虽已大幅简化(不到200条数据),但仍需相机标定和URDF配置,并非真正的零门槛。

如何使用

  1. 环境准备:克隆官方GitHub仓库,安装Python依赖环境,确保系统支持PyTorch与CUDA。
  2. 模型下载:从开源渠道获取ACE-Ego预训练权重文件,加载以人为中心预训练的VLA基础模型。
  3. 本体配置:通过形态条件编码接口录入目标机器人的URDF结构、关节自由度与相机参数,完成一脑多型适配。
  4. 相机标定:对机器人搭载的RGB-D相机进行内外参标定,建立统一的相机空间动作坐标系。
  5. 数据微调(可选):针对特定任务采集少量机器人演示数据,结合人类视频预训练权重进行轻量级微调。
  6. 推理执行:将机器人实时相机画面与语言指令(如”把鞋子装进鞋盒”)输入模型,模型输出相机空间下的末端执行器动作序列,映射为目标机器人本体的关节控制信号,驱动硬件完成操作。
  7. 可靠性校验:启用可靠性感知模块过滤低置信度动作,确保长周期复杂操作的安全稳定执行。

框架技术原理

ACE-Ego的核心是”大规模人类第一人称视频 + 多具身机器人数据”的全链路融合方案,通过四大机制破解人机数据异构难题:

机制一:第一视角统一动作空间表达。 以头部相机坐标系为统一基准,将多机型机器人末端执行器轨迹、不同人类视角视频重建的手部运动全部投影到机器人”第一视角”下,让动作指令与视觉观测对齐至统一坐标系。针对人类视频,搭建覆盖原始筛选、3D手部重建、参数化映射与多轮质量过滤的处理管线,最终输出与机器人完全同构的动作向量。

机制二:URDF本体形态映射。 将统一机器人描述格式(URDF)映射为跨本体的统一中间层编码。对机器人解析URDF文件将运动学特征编码输入动作解码器;对人类数据则学习专属的”代理形态嵌入”模拟人体结构。形态条件仅在动作解码阶段注入,不干扰视觉语言主干网络。

机制三:时间对齐动态分块。 打破按帧切分的传统做法,以物理时长为标准划分动作块,确保所有数据源预测相同时长的未来动作窗口;搭配分桶采样策略,按任务类型、时序阶段、块长组合成批,稳定梯度更新。

机制四:可靠性自适应目标函数。 引入可靠性评估机制,在训练中区分高置信度与低置信度动作预测,真实机器人数据做主损失,人类伪动作数据做辅助损失,根据质量打分动态加权,带噪声数据”按需采信”。

创新点

  • 范式创新:首创”以人为中心”的ACE具身研发范式,颠覆行业传统”以机器为中心”、依赖大批量高成本真机遥操作数据的路线,将海量低成本第一视角人类视频转化为有效监督信号。
  • 四重异构破解:首次系统性地从空间坐标系、本体结构、时序频率、标签质量四个维度实现人机数据的统一表示与对齐,支撑大规模人机异构数据同框训练。
  • 数据效率革命:实验证明,引入第一视角人类视频进行联合预训练,相比仅使用机器人数据,RoboCasa基准成功率从68.3%提升至72.8%,实现4.5%的显著性能跨越。
  • 一脑多型架构:同一模型适配不同机器人本体,新本体部署仅需替换一组相机外参,适配全新机型仅需不到200条动作数据。

评估标准

基准 指标 ACE-Ego成绩 对比
RoboCasa GR1 TableTop(人形桌面操作,24项家庭任务) 平均成功率 72.8%(榜首) 第二名小鹏DIAL 70.2%,英伟达GR00T-N1.6仅47.6%,京东JoyAI-RA 63.2%
RoboTwin 2.0 Easy(干净场景,50项双臂任务) 成功率 91.12% 腾讯混元Hy-VLA 90.9%
RoboTwin 2.0 Hard(强域随机化,模拟真实不确定性) 成功率 90.62% 腾讯混元Hy-VLA 90.1%,京东JoyAI-RA 89.28%
场景衰减(Easy→Hard) 性能衰减 仅0.5个百分点 行业平均水平远高于此

此外,盘子叠放、托盘移锅等任务成功率突破98%,验证能力提升来自框架底层优化而非过拟合。在双臂ARX机器人实物部署中,6个任务平均成功率达78.3%。

应用领域

  • 物流仓储:仓库内物品分拣、装箱、码垛等需要强接触操作的环节智能化。
  • 零售场景:商品陈列、履约打包、货品分拣、鞋盒装鞋、塑料袋打包等线下零售核心作业。
  • 家庭服务:物品收纳、整理、简单清洁等日常家务操作辅助。
  • 商业服务:商场、酒店、餐厅等场景中的物品搬运、陈列维护与台面整理。
  • 工业制造:生产线上的零部件装配、工具取放、物料转移等精细工业操作。

项目地址

  • 项目官网:https://acerobotics-vla.github.io/ACE-Ego/
  • 论文:https://arxiv.org/abs/2606.17200
  • GitHub仓库:acerobotics-vla/ACE-Ego(开源可获取)
© 版权声明

相关文章

暂无评论

暂无评论...