GigaBrain-0 : 开源VLA具身模型,基于世界模型生成的数据

AI工具6小时前更新 FuturX-Editor
9 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

GigaBrain-0 是国内首个利用世界模型生成数据实现真机泛化的端到端视觉-语言-动作(VLA)具身基础模型,由极佳视界与湖北人形机器人创新中心联合发布。该模型以世界模型为核心,通过大规模生成多样化训练数据,减少对真实机器人数据的依赖,显著提升跨任务泛化能力。其目标是通过世界模型驱动的数据引擎,彻底改变通用机器人大脑的开发方式,推动具身智能向物理世界通用智能迈进。GigaBrain-0 : 开源VLA具身模型,基于世界模型生成的数据

功能特点

  1. 数据高效利用:超过 90% 的训练数据来自自研世界模型平台 GigaWorld,仅用不到 10% 的真实数据即可实现跨任务、跨场景的高效泛化。
  2. 3D 空间感知:通过 RGB-D 输入建模,增强对物体 3D 位置和空间布局的感知能力,提升操作精度。
  3. 结构化推理能力:引入具身思维链(Embodied Chain-of-Thought, Embodied CoT)机制,生成中间推理步骤(如操作轨迹、子目标规划),提升长时程、复杂任务的规划和决策能力。
  4. 轻量化设计:推出轻量级变体 GigaBrain-0-Small,可在 NVIDIA Jetson AGX Orin 等边缘设备上高效运行,满足实时部署需求。
  5. 多模态输入支持:支持图像、点云、文本、本体状态等多种输入,输出结构化的任务规划和运动规划。

优缺点

优点

  1. 降低数据依赖:通过世界模型生成多样化数据,显著减少对真实机器人数据的依赖,降低数据采集成本和时间。
  2. 提升泛化能力:在外观、物体摆放位置和相机视角变化等场景下展现出优异的泛化能力,适应复杂多变的真实世界环境。
  3. 高效推理:轻量级版本在边缘设备上实现高效推理,满足实时部署需求。
  4. 结构化推理:通过具身思维链机制,提升模型在长时程、复杂任务中的推理能力。

缺点

  1. 世界模型生成数据的真实性:尽管世界模型能够生成多样化的数据,但这些数据在物理真实性和细节上可能仍与真实世界存在一定差距。
  2. 模型复杂性:GigaBrain-0 的模型架构相对复杂,可能需要较高的计算资源和专业知识进行训练和优化。

如何使用

  1. 访问项目地址:前往 GigaBrain-0 的项目官网(https://gigabrain0.github.io/)或 GitHub 仓库,获取模型代码、文档和预训练模型。
  2. 准备环境:确保已安装 Python 和必要的依赖库(如 transformers、torch 等),并配置好 GPU 环境(如需)。
  3. 加载模型:使用提供的代码示例或脚本,加载预训练的 GigaBrain-0 模型和处理器。
  4. 输入数据:准备视觉观察(如图像或视频)、高级语言指令等输入数据。
  5. 运行推理:调用模型进行推理,生成符合要求的动作序列,用于控制机器人执行任务。

框架技术原理

GigaBrain-0 采用混合 Transformers 架构,结合预训练视觉语言模型(VLM)和动作扩散转换器(DiT)实现端到端推理。其核心流程如下:

  1. 多模态输入编码:利用预训练的 VLM(如 PaliGemma2)对视觉和语言输入进行编码,提取特征表示。
  2. 具身思维链生成:在推理过程中生成中间推理步骤,包括操作轨迹(机械臂末端执行器运动路径的 2D 投影)和子目标规划(自然语言描述的任务分解)。
  3. 动作预测:采用动作扩散转换器(DiT)和流程匹配(Flow Matching)技术,预测连续的动作序列,生成平滑和连续的动作输出。
  4. 世界模型数据生成:通过 GigaWorld 平台生成多样化的训练数据,包括视频生成数据、Real2Real 迁移数据、人类迁移数据、视角迁移数据和 Sim2Real 迁移数据等,用于模型预训练和后训练。

创新点

  1. 世界模型驱动的数据引擎:提出并利用世界模型生成多样化训练数据,减少对真实机器人数据的依赖,提升模型泛化能力。
  2. 具身思维链机制:引入 Embodied CoT 机制,使模型能够生成中间推理步骤,模拟人类解决问题的认知过程,提升长时程、复杂任务的推理能力。
  3. RGB-D 输入建模:通过整合深度信息,增强对 3D 几何形状和空间布局的理解,提升操作精度。
  4. 轻量化设计:推出轻量级变体 GigaBrain-0-Small,满足边缘设备部署需求。

评估标准

GigaBrain-0 的评估主要基于以下几个方面:

  1. 任务成功率:在灵巧操作任务(如叠衣服、整理卷纸)、长程任务(如收拾桌面、倒饮料)和移动操作任务(如搬运箱子、拾取衣物)中,评估模型的成功率。
  2. 泛化能力:在外观、物体摆放位置和相机视角变化等场景下,评估模型的泛化能力。
  3. 推理效率:评估模型在边缘设备上的推理延迟和资源占用情况。
  4. 数据效率:评估模型在不同比例的世界模型生成数据和真实数据下的训练效果。

应用领域

GigaBrain-0 具有广泛的应用前景,包括但不限于:

  1. 工业自动化:在工业流水线上执行复杂的装配和搬运任务。
  2. 服务机器人:在商业、办公和家居环境中执行清洁、整理、搬运等任务。
  3. 医疗辅助:协助医护人员进行药品分发、患者护理等任务。
  4. 教育娱乐:用于教育机器人和娱乐机器人的开发和训练。

项目地址

© 版权声明

相关文章

暂无评论

暂无评论...