NavFoM : 银河通用推出的环视导航基座大模型

AI工具2小时前发布 FuturX-Editor
4 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

NavFoM(Navigation Foundation Model)是由银河通用联合北京大学、阿德莱德大学、浙江大学等顶尖团队推出的全球首个跨本体全域环视导航基座大模型。该模型旨在将视觉与语言导航、目标导向导航、视觉追踪及自主驾驶等任务整合到统一框架中,支持室内外全场景零样本运行,无需预先建图或数据采集。其发布标志着机器人导航领域从单一任务模型向通用智能基座的跨越,为具身智能的规模化商业应用奠定了关键技术基础。NavFoM : 银河通用推出的环视导航基座大模型

功能特点

  1. 全场景支持:无论室内还是室外环境,模型均能在未见过的场景中实现零样本运行,降低部署成本。
  2. 多任务适配:支持自然语言指令驱动的目标跟随、自主导航等任务,覆盖从机器狗到无人机、轮式人形到汽车等异构本体。
  3. 360°环视感知:通过多视角输入(如单目、环视、无人机)增强环境理解能力,提升导航鲁棒性。
  4. 零样本迁移:模型训练后可直接部署于真实机器人,无需针对特定场景额外调整。

优缺点

优点

  • 通用性强:跨任务、跨本体设计大幅降低研发成本,加速商业化进程。
  • 适应复杂环境:在人流密集商场、城市街道等动态场景中表现优异。
  • 数据效率高:构建的跨任务数据集规模达以往工作的两倍,强化语言与空间语义理解。

缺点

  • 算力需求较高:大规模数据训练与复杂模型架构对硬件资源要求显著。
  • 长尾场景挑战:在极端复杂或罕见场景中,模型性能可能受限。

如何使用

  1. 机器人导航:通过自然语言指令(如“跟着那个人走”“找到门口的红车”)驱动机器狗、无人机等设备完成目标跟随或路径规划。
  2. 自动驾驶辅助:支持车辆在复杂地形中实时避障与路径推理,提升行驶安全性。
  3. 智慧城市应用:结合第三方地图软件,实现城市级自主导航与最优路径规划。
  4. 服务机器人开发:基于NavFoM训练特定应用模型(如长程跟随、室内外混合导航),快速落地物流、安防等场景。

框架技术原理

NavFoM采用“视频流+文本指令→动作轨迹”的统一范式,端到端完成环境感知、指令理解与行动决策。其核心技术包括:

  • TVI Tokens(时空索引标记):为每帧画面添加时间轴与方向罗盘,使模型理解空间连续变化,兼容多视角输入。
  • BATS策略(预算感知标记采样):动态筛选关键帧,优化计算资源使用效率,实现毫秒级响应。
  • 跨任务数据集:包含800万条导航数据(覆盖视觉语言导航、目标导航等)及400万条开放问答数据,强化模型泛化能力。

创新点

  1. 跨本体通用架构:首次实现不同尺寸机器人(如四足、轮式、无人机)的导航任务统一,促进知识迁移与经验共享。
  2. 零样本环境适应:无需预先建图或额外训练数据,即可在新场景中自主运行。
  3. 体系化模型能力:与操作基座大模型GraspVLA、GroceryVLA形成技术闭环,支撑“理解空间、适应变化、自主行走”的核心能力。

评估标准

  1. 国际基准测试:在VLN-CE、HM3D-OVON等任务中刷新纪录,验证长程导航与复杂地形规划能力。
  2. 实测性能:驱动四足机器人完成30分钟以上稳定跟随、轮式机器人实现室内外混合导航、无人机在复杂地形规划飞行。
  3. 应用场景覆盖:评估模型在物流、安防、服务等领域落地后的实际效率提升与成本降低效果。

应用领域

  1. 物流配送:实现无人车、无人机的自主路径规划与避障。
  2. 智慧安防:支持监控机器人在复杂环境中追踪目标或巡逻。
  3. 服务机器人:赋能酒店、商场等场景的导览、清洁机器人自主导航。
  4. 自动驾驶:辅助车辆在未知环境中实时决策,提升行驶安全性。
  5. 工业自动化:优化工厂内AGV小车的物料搬运效率。

项目地址

目前,NavFoM的详细技术文档与开源代码尚未完全公开,但可通过银河通用官方渠道或合作科研团队(如北京大学、阿德莱德大学)获取最新进展。建议关注银河通用官网或相关学术会议(如CVPR、ICRA)的后续发布。

© 版权声明

相关文章

暂无评论

暂无评论...