InternVLA·N1 : 上海AI Lab开源的端到端双系统导航大模型
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
InternVLA·N1 是上海人工智能实验室(上海AI Lab)于2025年9月15日开源的端到端双系统导航大模型,基于“书生”具身全栈引擎(Intern-Robotics)构建。该模型采用双系统架构,将高层远距离目标空间推理规划(系统2)与底层敏捷执行(系统1)解耦,通过纯合成数据驱动异步训练,实现低成本、高效率的导航能力。在真实场景中,InternVLA·N1 支持跨楼宇长距离听令行走和密集障碍物间的60Hz实时敏捷避障,展现出强大的零样本泛化能力,并在多个主流基准测试中达到国际领先水平。
功能特点
- 双系统协同架构:
- 系统2(推理规划):理解自然语言指令,结合视觉观测预测下一步目标像素,实现长程空间推理。
- 系统1(敏捷执行):高频响应环境变化,实时调整运动轨迹,确保避障精度与目标可达性。
- 纯合成数据驱动:
- 基于大规模数字场景资产和海量多模态语料训练,无需真实数据采集,降低训练成本。
- 零样本泛化能力:
- 仅通过合成数据训练,即可在真实场景中实现跨楼宇导航与复杂避障,适应未见过的环境。
- 多场景适应性:
- 支持室内外、跨楼层、密集障碍物等复杂场景,覆盖服务机器人、物流机器人等应用需求。
优缺点
优点:
- 低成本高效训练:纯合成数据驱动,避免真实数据采集的高昂成本。
- 强泛化性:零样本能力显著优于传统模型,减少对特定场景的依赖。
- 实时性能:60Hz推理频率满足实时导航需求,适合动态环境。
缺点:
- 极端场景适应性有限:在极端光照或动态障碍物快速移动场景下,性能可能下降。
- 硬件依赖性:高频推理需高性能GPU支持,移动端部署存在挑战。
如何使用
- 在线体验:
- 访问 Hugging Face Demo 页面(需等待官方上线),输入语音或文本指令(如“去3楼会议室”),模型实时生成路径并展示避障过程。
- 本地部署:
- 从 GitHub 下载预训练模型,通过 Docker 容器快速启动,连接机器人硬件后,使用 ROS 或 MCP 协议发送导航指令。
- API调用:
- 集成 Hugging Face Inference API,通过网页端或命令行工具直接调用模型服务,适合快速原型开发。
框架技术原理
- 双系统解耦设计:
- 系统2(推理)与系统1(执行)异步运行,系统2负责全局路径规划,系统1负责局部避障,通过隐式规划表征实现协同优化。
- 纯合成数据训练:
- 基于大规模数字场景资产(如 InternScenes-100)生成多模态语料,结合物理仿真引擎(Intern·Utopia)渲染复杂环境,覆盖10万+场景变量。
- 两阶段课程训练:
- 预训练阶段:监督微调系统2的路径规划能力。
- 联调阶段:系统1与系统2协同训练,优化整体导航性能。
创新点
- 双系统异步架构:
- 首次将人类认知中的“慢思考”(推理)与“快反应”(执行)机制引入机器人导航,提升复杂环境适应性。
- 纯合成数据驱动:
- 通过高效数据合成技术,实现低成本训练,数据效率较传统方案提升66%。
- 跨场景零样本泛化:
- 无需微调即可适应新场景,打破传统模型对真实数据的依赖。
评估标准
- 导航成功率:
- 在跨楼宇、密集障碍物等场景中,目标到达率超过95%。
- 避障效率:
- 在动态障碍物环境中,实时避障延迟低于50ms。
- 泛化能力:
- 零样本场景下,任务完成率超80%,微调后提升至97%。
应用领域
- 服务机器人:
- 在商场、酒店等场景中提供跨楼层导航服务,响应语音指令完成物品递送。
- 物流仓储:
- 自主规划路径,避开动态障碍物,提升分拣效率。
- 自动驾驶:
- 辅助车辆进行复杂路况下的路径规划与避障,提升安全性。
- 智能安防:
- 结合视觉指令,实现监控区域的智能巡逻与异常事件响应。
项目地址
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...