Qwen-Robot Suite : 阿里通义推出的物理世界基础模型套件
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
2026年6月16日,阿里巴巴通义千问团队正式发布千问大模型家族首个完整的具身智能模型系列——Qwen-Robot Suite。该套件包含三大基础模型:VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav和世界模型Qwen-RobotWorld,分别为机器人装上”灵巧的手”、”认路的脚”和”会思考的大脑”。三者既可单独部署,也能协同运转,通过统一的自然语言指令让不同形态的机器人在真实物理世界中听懂指令、感知环境、执行操作,标志着具身智能从”实验室研发”向”真实场景商业化”跨越迈出关键一步。
功能特点
- 三模型协同,覆盖具身全链路:操作(Manip)负责抓取、拧螺丝、插网线等精细动作;导航(Nav)负责指令跟随、目标搜索、自动驾驶等移动任务;世界模型(World)负责预测动作后果、生成仿真训练数据,三者形成”感知-决策-执行-预判”闭环。
- 一套模型适配15+机器人本体:Qwen-RobotManip通过80维统一动作表征屏蔽硬件差异,单臂、双臂、灵巧手、人形机器人、四足机器人均可接入,换本体仅需数步反馈即可自动适配。
- 零样本真实部署:已在宇树Go2四足机器人上实现零样本部署,仅用单个低分辨率相机即可在开放真实环境中完成跨房间指令跟随,无需场景特定微调。
- 语言优先的工具化接口:三个模型均提供语言优先接口,可被通用Qwen模型直接作为”物理世界工具”调用,支持Qwen-3.5作为规划器、Qwen-RobotManip作为执行器的分层智能体架构。
- 实验性Chat2Robot:用户可在浏览器中输入自然语言指令,直接与机器人交互,目前主要展示操作指令跟随能力。
优缺点
优点:
- 全部基于开源数据训练(Manip用38,100+小时开源及合成数据,World用860万条视频-文本对),不依赖私有闭源数据,路线可复制性强。
- 世界模型以自然语言为统一动作接口,是全球首个打通机器人操作、自动驾驶、室内导航、人机迁移多场景的具身世界模型,在四大权威基准上全部排名第一。
- 导航模型引入任务自适应观察机制,解决了传统VLN”记忆少迷路、记忆多混乱”的顽疾。
- 真实机器人验证成绩硬:RoboChallenge Table30 v1全球榜单前两名均为Qwen-RobotManip版本,可完成拧水龙头、插网线、双臂倒薯条等高难度任务。
缺点:
- Qwen-RobotWorld论文已公布但开源信息稍晚释放,当前阶段普通开发者无法直接获取权重。
- 世界模型训练成本极高(860万视频对、超2亿帧、60层双流架构),复现门槛高。
- 当前落地验证集中在桌面操作和四足导航,工业制造、家庭服务等更广泛场景的泛化能力仍需更多验证。
- 三模型协同的智能体框架(Qwen-RobotClaw)仍处于内部项目阶段,尚未全面开放。
如何使用
- 在线体验:访问通义AI助手(tongyi.com)或Qwen Chat(chat.qwen.ai),使用Chat2Robot功能,在浏览器中输入自然语言指令即可与机器人交互,零门槛体验操作能力。
- API调用:通过阿里云百炼平台接入Qwen-Robot系列API,在代码中配置API密钥后即可调用,适合将具身能力集成到自有系统。
- 本地部署:通过Ollama下载对应模型(如Qwen3系列),或使用Cherry Studio图形化界面管理;Qwen-RobotManip已开源,可从魔搭社区或Hugging Face获取权重,配合机器人本体SDK部署。
- 智能体开发:利用Qwen-RobotClaw框架,将Qwen-Robot三模型作为工具接入Qwen VLM智能体,构建能执行长程复杂任务的具身智能体系统。
- 世界模型应用:待开源后,可用于批量生成仿真训练视频、搭建虚拟评测环境、或将自然语言指令转化为视觉动作轨迹供下游规划使用。
框架技术原理
Qwen-RobotManip(操作模型):
- 采用80维统一状态-动作表示,为不同硬件定义通用”肢体语言”;
- 在相机坐标系下直接输出末端执行器增量位姿,基于画面相对位置操作,摒弃繁琐的绝对坐标计算;
- 引入上下文策略自适应机制,根据当前场景动态调整动作策略;
- 训练数据来自11,320小时开源机器人数据 + 1,933小时第一人称人类视频 + 24,808小时人机迁移合成数据,总计超38,100小时。
Qwen-RobotNav(导航模型):
- 基于Qwen-VL构建,核心是参数化的可控观测编码协议,允许上层规划器动态调整视觉历史编码策略;
- 引入任务自适应观察机制,根据任务类型灵活切换记忆策略,解决”记少迷路、记多混乱”问题;
- 在1,560万条样本上训练,单一模型、单组权重统一执行五大任务族。
Qwen-RobotWorld(世界模型):
- 采用60层双流MMDiT扩散Transformer架构,以完整Qwen2.5-VL作为动作编码器,内化物理知识;
- 以自然语言为统一动作接口,将末端位姿、转向指令、导航航点统一编码,覆盖20+本体、500+动作类别;
- 数据由30%通用视频 + 70%具身专属数据混合(共860万条视频-文本对),采用通用+专家渐进式四阶段训练,以流匹配(Flow Matching)为损失函数。
创新点
- 全球首个自然语言统一接口的具身世界模型:突破通用视频模型(物理弱)和专用具身模型(泛化差)的壁垒,用自然语言打通操作、驾驶、导航、人机迁移多场景。
- 80维统一动作表征:让不同形态机器人共享同一套”肢体语言”,换本体如同”老司机换车,试几脚油门就能上路”。
- 纯开源路线达到SOTA:不依赖私有数据,仅用开源数据训练即在RoboChallenge真机评测中包揽前两名,验证了数据效率和泛化能力。
- 任务自适应记忆机制:导航模型根据任务动态调整视觉记忆策略,是业内少数原生支持多种智能体框架的VLN模型。
- 分层智能体架构:Qwen-3.5作为规划器 + Qwen-Robot系列作为执行器的组合,有效提升长程任务的分解能力、失败恢复和开放环境鲁棒性。
评估标准
| 模型 | 基准 | 成绩 | 对比 |
|---|---|---|---|
| Qwen-RobotManip | RoboChallenge Table30 v1(30项真机任务) | 全球第1/第2(Lira/Atlas版本) | 覆盖拧水龙头、插网线、双臂倒薯条等 |
| LIBERO-Plus | 91.4% | — | |
| Robot(LAWR)win-C2R Hard | 69.4% | — | |
| Qwen-RobotNav | VLN-CE RxR | 76.5% SR(SOTA) | — |
| HM3Dv2目标搜索 | 75.6% SR | — | |
| EVT-Bench | 90.0% 跟踪率 | — | |
| NAVSIM | 91.4 PDMS | — | |
| 3个EQA基准 | 新纪录 | — | |
| Qwen-RobotWorld | EWMBench(具身运动) | 4.60总分,第1名 | 运动保真度HSD 0.566,超第2名33% |
| DreamGen Bench(视频生成) | 4.952总分,第1名 | — | |
| PBench(物理行为) | 0.804总分,开源第1 | 物理理解0.857(全局第3) | |
| WorldModelBench | 8.99总分,开源第1/全局第3 | 物理合规性全满分(牛顿定律、质量守恒、流体、重力) | |
| RoboTwin-IF(零样本) | 优于LVP、Cosmos | 指令对齐、多视角一致性更强 |
应用领域
- 物流仓储:物品分拣、装箱、码垛等强接触操作环节的智能化。
- 零售履约:商品整理、塑料袋打包、鞋盒装鞋等线下零售核心作业(已在RoboChallenge真机验证)。
- 自动驾驶:世界模型可生成驾驶仿真视频、预测交通场景演变,辅助规划决策。
- 室内导航与寻物:四足/人形机器人在开放环境中执行”帮我找找行李箱”等自然语言寻物任务。
- 工业制造:零部件装配、工具取放、物料转移等精细工业操作。
- 仿真数据生成:用世界模型批量合成训练视频,降低真实数据采集成本。
- 虚拟评测:在仿真环境中测试机器人策略,规避真实场景安全风险。
项目地址
- 官方发布页面:https://stock.10jqka.com.cn/20260616/c677494072.shtml(同花顺财经报道含详细技术解读)
- 论文(Qwen-RobotWorld):已公布,开源信息稍后发布
- Qwen-RobotManip开源权重:魔搭社区(modelscope.cn)及 Hugging Face
- 在线体验:https://chat.qwen.ai(Chat2Robot功能)
- API接入:阿里云百炼平台(dashscope.aliyuncs.com)
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...