ACE-Ego : 大晓机器人联合港中文开源的具身操作 VLA 模型

4 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

2026年6月17日，大晓机器人联合香港中文大学多媒体实验室（CUHK MMLab）正式发布并开源了全新”一脑多型”具身操作VLA模型——ACE-Ego。这是”以人为中心”（Human-centric）ACE具身研发范式在具身模型预训练领域的核心落地成果。该模型以6,000+小时人类第一视角视频为核心进行预训练，通过大规模第一视角人类视频与多型机器人数据的高效联合预训练，在两大国际权威具身智能基准上双双刷新SOTA纪录，同时在复杂零售场景中展现出强泛化落地能力，为具身智能走向产业规模化落地提供了高性价比技术方案。 ACE-Ego : 大晓机器人联合港中文开源的具身操作 VLA 模型

功能特点

双榜登顶：在RoboCasa GR1 TableTop人形桌面操作基准上以72.8%平均成功率夺魁，在RoboTwin 2.0双臂操作基准强域随机化测试中达90.62%成功率，均大幅超越英伟达GR00T、PI π₀.₅、京东JoyAI-RA等主流模型。
一脑多型适配：同一VLA模型通过形态条件编码可适配不同机器人本体，无需为每台机器人单独训练。面对全新未知机型（如ARX双臂机器人），仅需不到200条动作数据即可完成适配部署。
复杂操作执行：支持长周期、强接触的零售级操作，包括塑料袋打包、鞋子装入鞋盒、咖啡定量分装等，覆盖商品整理、打包履约等典型线下零售环节，突破了此前模型仅能完成简单桌面抓取的能力边界。
强环境鲁棒性：从干净场景到强随机化场景性能仅衰减0.5个百分点，远低于行业平均水平，意味着其习得技能具备极强的环境适应性。

优缺点

优点：

以海量低成本人类第一视角视频替代昂贵的真机遥操作数据，数据效率极高，大幅降低训练成本。
四大核心机制系统性破解了人机数据在空间、结构、时间、标签质量上的四重异构难题，技术路径清晰且工程友好。
性能增益覆盖全品类任务，盘子叠放、托盘移锅等任务成功率突破98%，证明能力提升来自框架底层优化而非特定任务过拟合。
完全开源，降低具身智能研发门槛，支持二次开发与多本体部署。

缺点：

人类视频提取的”伪动作”精度天然低于真实机器人数据，尽管有可靠性自适应机制缓解，但在极端精密操作上仍存在上限。
目前落地验证主要集中在零售场景，更广泛的工业制造、家庭服务等场景的泛化能力仍需更多验证。
部署新本体虽已大幅简化（不到200条数据），但仍需相机标定和URDF配置，并非真正的零门槛。

如何使用

环境准备：克隆官方GitHub仓库，安装Python依赖环境，确保系统支持PyTorch与CUDA。
模型下载：从开源渠道获取ACE-Ego预训练权重文件，加载以人为中心预训练的VLA基础模型。
本体配置：通过形态条件编码接口录入目标机器人的URDF结构、关节自由度与相机参数，完成一脑多型适配。
相机标定：对机器人搭载的RGB-D相机进行内外参标定，建立统一的相机空间动作坐标系。
数据微调（可选）：针对特定任务采集少量机器人演示数据，结合人类视频预训练权重进行轻量级微调。
推理执行：将机器人实时相机画面与语言指令（如”把鞋子装进鞋盒”）输入模型，模型输出相机空间下的末端执行器动作序列，映射为目标机器人本体的关节控制信号，驱动硬件完成操作。
可靠性校验：启用可靠性感知模块过滤低置信度动作，确保长周期复杂操作的安全稳定执行。

框架技术原理

ACE-Ego的核心是”大规模人类第一人称视频 + 多具身机器人数据”的全链路融合方案，通过四大机制破解人机数据异构难题：

机制一：第一视角统一动作空间表达。 以头部相机坐标系为统一基准，将多机型机器人末端执行器轨迹、不同人类视角视频重建的手部运动全部投影到机器人”第一视角”下，让动作指令与视觉观测对齐至统一坐标系。针对人类视频，搭建覆盖原始筛选、3D手部重建、参数化映射与多轮质量过滤的处理管线，最终输出与机器人完全同构的动作向量。

机制二：URDF本体形态映射。 将统一机器人描述格式（URDF）映射为跨本体的统一中间层编码。对机器人解析URDF文件将运动学特征编码输入动作解码器；对人类数据则学习专属的”代理形态嵌入”模拟人体结构。形态条件仅在动作解码阶段注入，不干扰视觉语言主干网络。

机制三：时间对齐动态分块。 打破按帧切分的传统做法，以物理时长为标准划分动作块，确保所有数据源预测相同时长的未来动作窗口；搭配分桶采样策略，按任务类型、时序阶段、块长组合成批，稳定梯度更新。

机制四：可靠性自适应目标函数。 引入可靠性评估机制，在训练中区分高置信度与低置信度动作预测，真实机器人数据做主损失，人类伪动作数据做辅助损失，根据质量打分动态加权，带噪声数据”按需采信”。

创新点

范式创新：首创”以人为中心”的ACE具身研发范式，颠覆行业传统”以机器为中心”、依赖大批量高成本真机遥操作数据的路线，将海量低成本第一视角人类视频转化为有效监督信号。
四重异构破解：首次系统性地从空间坐标系、本体结构、时序频率、标签质量四个维度实现人机数据的统一表示与对齐，支撑大规模人机异构数据同框训练。
数据效率革命：实验证明，引入第一视角人类视频进行联合预训练，相比仅使用机器人数据，RoboCasa基准成功率从68.3%提升至72.8%，实现4.5%的显著性能跨越。
一脑多型架构：同一模型适配不同机器人本体，新本体部署仅需替换一组相机外参，适配全新机型仅需不到200条动作数据。

评估标准

基准	指标	ACE-Ego成绩	对比
RoboCasa GR1 TableTop（人形桌面操作，24项家庭任务）	平均成功率	72.8%（榜首）	第二名小鹏DIAL 70.2%，英伟达GR00T-N1.6仅47.6%，京东JoyAI-RA 63.2%
RoboTwin 2.0 Easy（干净场景，50项双臂任务）	成功率	91.12%	腾讯混元Hy-VLA 90.9%
RoboTwin 2.0 Hard（强域随机化，模拟真实不确定性）	成功率	90.62%	腾讯混元Hy-VLA 90.1%，京东JoyAI-RA 89.28%
场景衰减（Easy→Hard）	性能衰减	仅0.5个百分点	行业平均水平远高于此

此外，盘子叠放、托盘移锅等任务成功率突破98%，验证能力提升来自框架底层优化而非过拟合。在双臂ARX机器人实物部署中，6个任务平均成功率达78.3%。

应用领域

物流仓储：仓库内物品分拣、装箱、码垛等需要强接触操作的环节智能化。
零售场景：商品陈列、履约打包、货品分拣、鞋盒装鞋、塑料袋打包等线下零售核心作业。
家庭服务：物品收纳、整理、简单清洁等日常家务操作辅助。
商业服务：商场、酒店、餐厅等场景中的物品搬运、陈列维护与台面整理。
工业制造：生产线上的零部件装配、工具取放、物料转移等精细工业操作。

项目地址

项目官网：https://acerobotics-vla.github.io/ACE-Ego/
论文：https://arxiv.org/abs/2606.17200
GitHub仓库：acerobotics-vla/ACE-Ego（开源可获取）

# AI工具

文章版权归作者所有，未经允许请勿转载。

Tinker API ： Thinking Machines Lab推出的模型微调API

FuturX-Editor

619 0

CWM ： Meta开源的代码世界模型

FuturX-Editor

629 0

Manus ：蝴蝶效应公司推出的首款通用型 AI Agent

FuturX-Editor

565 0

Lumina-Image 2.0 —— 上海 AI Lab 开源的统一图像生成模型

FuturX-Editor

1,133 1

SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型

FuturX-Editor

420 0

炉米Lumi——字节跳动内部孵化的AI模型社区平台

FuturX-Editor

880 0

暂无评论

暂无评论...

ACE-Ego : 大晓机器人联合港中文开源的具身操作 VLA 模型

主要介绍

功能特点

优缺点

如何使用

框架技术原理

创新点

评估标准

应用领域

项目地址

Kairos-HomeWorld ：大晓机器人推出的全屋三维可交互世界模型

Qwen-Robot Suite : 阿里通义推出的物理世界基础模型套件

相关文章

暂无评论

相关文章

ACE-Ego : 大晓机器人联合港中文开源的具身操作 VLA 模型

主要介绍

功能特点

优缺点

如何使用

框架技术原理

创新点

评估标准

应用领域

项目地址

Kairos-HomeWorld ： 大晓机器人推出的全屋三维可交互世界模型

Qwen-Robot Suite : 阿里通义推出的物理世界基础模型套件

相关文章

暂无评论

相关文章

Kairos-HomeWorld ：大晓机器人推出的全屋三维可交互世界模型