InternVLA·N1 : 上海AI Lab开源的端到端双系统导航大模型

AI工具2小时前更新 FuturX-Editor
7 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

InternVLA·N1 是上海人工智能实验室(上海AI Lab)于2025年9月15日开源的端到端双系统导航大模型,基于“书生”具身全栈引擎(Intern-Robotics)构建。该模型采用双系统架构,将高层远距离目标空间推理规划(系统2)与底层敏捷执行(系统1)解耦,通过纯合成数据驱动异步训练,实现低成本、高效率的导航能力。在真实场景中,InternVLA·N1 支持跨楼宇长距离听令行走和密集障碍物间的60Hz实时敏捷避障,展现出强大的零样本泛化能力,并在多个主流基准测试中达到国际领先水平。InternVLA·N1 : 上海AI Lab开源的端到端双系统导航大模型

功能特点

  1. 双系统协同架构
    • 系统2(推理规划):理解自然语言指令,结合视觉观测预测下一步目标像素,实现长程空间推理。
    • 系统1(敏捷执行):高频响应环境变化,实时调整运动轨迹,确保避障精度与目标可达性。
  2. 纯合成数据驱动
    • 基于大规模数字场景资产和海量多模态语料训练,无需真实数据采集,降低训练成本。
  3. 零样本泛化能力
    • 仅通过合成数据训练,即可在真实场景中实现跨楼宇导航与复杂避障,适应未见过的环境。
  4. 多场景适应性
    • 支持室内外、跨楼层、密集障碍物等复杂场景,覆盖服务机器人、物流机器人等应用需求。

优缺点

优点

  • 低成本高效训练:纯合成数据驱动,避免真实数据采集的高昂成本。
  • 强泛化性:零样本能力显著优于传统模型,减少对特定场景的依赖。
  • 实时性能:60Hz推理频率满足实时导航需求,适合动态环境。

缺点

  • 极端场景适应性有限:在极端光照或动态障碍物快速移动场景下,性能可能下降。
  • 硬件依赖性:高频推理需高性能GPU支持,移动端部署存在挑战。

如何使用

  1. 在线体验
    • 访问 Hugging Face Demo 页面(需等待官方上线),输入语音或文本指令(如“去3楼会议室”),模型实时生成路径并展示避障过程。
  2. 本地部署
    • 从 GitHub 下载预训练模型,通过 Docker 容器快速启动,连接机器人硬件后,使用 ROS 或 MCP 协议发送导航指令。
  3. API调用
    • 集成 Hugging Face Inference API,通过网页端或命令行工具直接调用模型服务,适合快速原型开发。

框架技术原理

  1. 双系统解耦设计
    • 系统2(推理)与系统1(执行)异步运行,系统2负责全局路径规划,系统1负责局部避障,通过隐式规划表征实现协同优化。
  2. 纯合成数据训练
    • 基于大规模数字场景资产(如 InternScenes-100)生成多模态语料,结合物理仿真引擎(Intern·Utopia)渲染复杂环境,覆盖10万+场景变量。
  3. 两阶段课程训练
    • 预训练阶段:监督微调系统2的路径规划能力。
    • 联调阶段:系统1与系统2协同训练,优化整体导航性能。

创新点

  1. 双系统异步架构
    • 首次将人类认知中的“慢思考”(推理)与“快反应”(执行)机制引入机器人导航,提升复杂环境适应性。
  2. 纯合成数据驱动
    • 通过高效数据合成技术,实现低成本训练,数据效率较传统方案提升66%。
  3. 跨场景零样本泛化
    • 无需微调即可适应新场景,打破传统模型对真实数据的依赖。

评估标准

  1. 导航成功率
    • 在跨楼宇、密集障碍物等场景中,目标到达率超过95%。
  2. 避障效率
    • 在动态障碍物环境中,实时避障延迟低于50ms。
  3. 泛化能力
    • 零样本场景下,任务完成率超80%,微调后提升至97%。

应用领域

  1. 服务机器人
    • 在商场、酒店等场景中提供跨楼层导航服务,响应语音指令完成物品递送。
  2. 物流仓储
    • 自主规划路径,避开动态障碍物,提升分拣效率。
  3. 自动驾驶
    • 辅助车辆进行复杂路况下的路径规划与避障,提升安全性。
  4. 智能安防
    • 结合视觉指令,实现监控区域的智能巡逻与异常事件响应。

项目地址

© 版权声明

相关文章

暂无评论

暂无评论...