InternVLA·N1 ：上海AI Lab开源的端到端双系统导航大模型

409 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

InternVLA·N1 是上海人工智能实验室（上海AI Lab）于2025年9月15日开源的端到端双系统导航大模型，基于“书生”具身全栈引擎（Intern-Robotics）构建。该模型采用双系统架构，将高层远距离目标空间推理规划（系统2）与底层敏捷执行（系统1）解耦，通过纯合成数据驱动异步训练，实现低成本、高效率的导航能力。在真实场景中，InternVLA·N1 支持跨楼宇长距离听令行走和密集障碍物间的60Hz实时敏捷避障，展现出强大的零样本泛化能力，并在多个主流基准测试中达到国际领先水平。 InternVLA·N1 ：上海AI Lab开源的端到端双系统导航大模型

功能特点

双系统协同架构：
- 系统2（推理规划）：理解自然语言指令，结合视觉观测预测下一步目标像素，实现长程空间推理。
- 系统1（敏捷执行）：高频响应环境变化，实时调整运动轨迹，确保避障精度与目标可达性。
纯合成数据驱动：
- 基于大规模数字场景资产和海量多模态语料训练，无需真实数据采集，降低训练成本。
零样本泛化能力：
- 仅通过合成数据训练，即可在真实场景中实现跨楼宇导航与复杂避障，适应未见过的环境。
多场景适应性：
- 支持室内外、跨楼层、密集障碍物等复杂场景，覆盖服务机器人、物流机器人等应用需求。

优缺点

优点：

低成本高效训练：纯合成数据驱动，避免真实数据采集的高昂成本。
强泛化性：零样本能力显著优于传统模型，减少对特定场景的依赖。
实时性能：60Hz推理频率满足实时导航需求，适合动态环境。

缺点：

极端场景适应性有限：在极端光照或动态障碍物快速移动场景下，性能可能下降。
硬件依赖性：高频推理需高性能GPU支持，移动端部署存在挑战。

如何使用

在线体验：
- 访问 Hugging Face Demo 页面（需等待官方上线），输入语音或文本指令（如“去3楼会议室”），模型实时生成路径并展示避障过程。
本地部署：
- 从 GitHub 下载预训练模型，通过 Docker 容器快速启动，连接机器人硬件后，使用 ROS 或 MCP 协议发送导航指令。
API调用：
- 集成 Hugging Face Inference API，通过网页端或命令行工具直接调用模型服务，适合快速原型开发。

框架技术原理

双系统解耦设计：
- 系统2（推理）与系统1（执行）异步运行，系统2负责全局路径规划，系统1负责局部避障，通过隐式规划表征实现协同优化。
纯合成数据训练：
- 基于大规模数字场景资产（如 InternScenes-100）生成多模态语料，结合物理仿真引擎（Intern·Utopia）渲染复杂环境，覆盖10万+场景变量。
两阶段课程训练：
- 预训练阶段：监督微调系统2的路径规划能力。
- 联调阶段：系统1与系统2协同训练，优化整体导航性能。