GigaBrain-0 ：开源VLA具身模型，基于世界模型生成的数据

118 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

GigaBrain-0 是国内首个利用世界模型生成数据实现真机泛化的端到端视觉-语言-动作（VLA）具身基础模型，由极佳视界与湖北人形机器人创新中心联合发布。该模型以世界模型为核心，通过大规模生成多样化训练数据，减少对真实机器人数据的依赖，显著提升跨任务泛化能力。其目标是通过世界模型驱动的数据引擎，彻底改变通用机器人大脑的开发方式，推动具身智能向物理世界通用智能迈进。 GigaBrain-0 ：开源VLA具身模型，基于世界模型生成的数据

功能特点

数据高效利用：超过 90% 的训练数据来自自研世界模型平台 GigaWorld，仅用不到 10% 的真实数据即可实现跨任务、跨场景的高效泛化。
3D 空间感知：通过 RGB-D 输入建模，增强对物体 3D 位置和空间布局的感知能力，提升操作精度。
结构化推理能力：引入具身思维链（Embodied Chain-of-Thought, Embodied CoT）机制，生成中间推理步骤（如操作轨迹、子目标规划），提升长时程、复杂任务的规划和决策能力。
轻量化设计：推出轻量级变体 GigaBrain-0-Small，可在 NVIDIA Jetson AGX Orin 等边缘设备上高效运行，满足实时部署需求。
多模态输入支持：支持图像、点云、文本、本体状态等多种输入，输出结构化的任务规划和运动规划。

优缺点

优点：

降低数据依赖：通过世界模型生成多样化数据，显著减少对真实机器人数据的依赖，降低数据采集成本和时间。
提升泛化能力：在外观、物体摆放位置和相机视角变化等场景下展现出优异的泛化能力，适应复杂多变的真实世界环境。
高效推理：轻量级版本在边缘设备上实现高效推理，满足实时部署需求。
结构化推理：通过具身思维链机制，提升模型在长时程、复杂任务中的推理能力。

缺点：

世界模型生成数据的真实性：尽管世界模型能够生成多样化的数据，但这些数据在物理真实性和细节上可能仍与真实世界存在一定差距。
模型复杂性：GigaBrain-0 的模型架构相对复杂，可能需要较高的计算资源和专业知识进行训练和优化。

如何使用

访问项目地址：前往 GigaBrain-0 的项目官网（https://gigabrain0.github.io/）或 GitHub 仓库，获取模型代码、文档和预训练模型。
准备环境：确保已安装 Python 和必要的依赖库（如 transformers、torch 等），并配置好 GPU 环境（如需）。
加载模型：使用提供的代码示例或脚本，加载预训练的 GigaBrain-0 模型和处理器。
输入数据：准备视觉观察（如图像或视频）、高级语言指令等输入数据。
运行推理：调用模型进行推理，生成符合要求的动作序列，用于控制机器人执行任务。

框架技术原理

GigaBrain-0 采用混合 Transformers 架构，结合预训练视觉语言模型（VLM）和动作扩散转换器（DiT）实现端到端推理。其核心流程如下：

多模态输入编码：利用预训练的 VLM（如 PaliGemma2）对视觉和语言输入进行编码，提取特征表示。
具身思维链生成：在推理过程中生成中间推理步骤，包括操作轨迹（机械臂末端执行器运动路径的 2D 投影）和子目标规划（自然语言描述的任务分解）。
动作预测：采用动作扩散转换器（DiT）和流程匹配（Flow Matching）技术，预测连续的动作序列，生成平滑和连续的动作输出。
世界模型数据生成：通过 GigaWorld 平台生成多样化的训练数据，包括视频生成数据、Real2Real 迁移数据、人类迁移数据、视角迁移数据和 Sim2Real 迁移数据等，用于模型预训练和后训练。