SmolVLA : Hugging Face开源的轻量级机器人模型

AI工具4小时前发布 FuturX-Editor
3 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

SmolVLA 是 Hugging Face 开源的轻量级视觉 – 语言 – 行动(VLA)模型,专为经济高效的机器人设计。它拥有 4.5 亿参数,模型小巧,可在 CPU 上运行,单个消费级 GPU 即可训练,还能在 MacBook 上部署。该模型完全基于开源数据集训练,数据集标签为 “lerobot”,旨在降低开发者进入机器人智能领域的门槛,推动通用机器人智能体的研究发展,降低爱好者的入门成本,有望吸引更多开发者参与到机器人智能的研究与应用中来。

SmolVLA : Hugging Face开源的轻量级机器人模型

功能特点

  • 多模态输入处理:能处理多种输入,包括多幅图像、语言指令以及机器人的状态信息。通过视觉编码器提取图像特征,将语言指令标记化后输入解码器,将传感运动状态通过线性层投影到一个标记上,与语言模型的标记维度对齐。
  • 动作序列生成:包含一个动作专家模块,是一个轻量级的 Transformer,能基于视觉 – 语言模型(VLM)的输出,生成未来机器人的动作序列块。采用流匹配技术进行训练,通过引导噪声样本回归真实数据分布来学习动作生成,实现高精度的实时控制。
  • 高效推理与异步执行:引入了异步推理堆栈,将动作执行与感知和预测分离,实现更快、更灵敏的控制,使机器人可以在快速变化的环境中更快速地响应,提高了响应速度和任务吞吐量。
  • 视觉Token减少:限制每帧图像的视觉 Token 数量为 64 个,大大减少了处理成本。
  • 层跳跃加速推理:跳过 VLM 中的一半层进行计算,有效地将计算成本减半,同时保持了良好的性能。
  • 交错注意力层:交替使用交叉注意力(CA)和自注意力(SA)层,提高了多模态信息整合的效率,加快推理速度。

优缺点

优点

  • 轻量级:参数较少,模型小巧,对硬件要求低,可在消费级硬件上运行,降低了开发和部署成本。
  • 开源:代码和模型权重均开源,方便开发者进行研究和使用,促进了技术的共享和发展。
  • 高效:通过多种优化技术,如视觉Token减少、层跳跃加速推理、交错注意力层等,提高了推理速度和效率。
  • 异步推理:引入异步推理堆栈,提高了机器人在动态环境中的响应速度和任务吞吐量。

缺点

  • 训练数据相对较少:训练数据远少于现有其他 VLA 模型,可能在某些复杂任务上的泛化能力有限。
  • 模型性能可能受限:虽然在小规模参数下表现良好,但与大型模型相比,在处理一些极端复杂任务时,性能可能仍有差距。

如何使用

  1. 安装依赖:首先安装transformers库,它提供了加载和使用模型的接口,如果处理数据集,建议同时安装datasets库,根据模型需求,可能还需安装 PyTorch 或 TensorFlow。
  2. 加载模型:可以使用 Hugging Face 提供的 pipeline API 快速调用模型完成常见任务,也可以手动加载模型、分词器和配置。
  3. 输入处理:接收并预处理视觉输入(图像序列)、语言指令和机器人传感运动状态。
  4. 模型推理:将处理后的输入输入到模型中,得到动作序列。
  5. 动作执行:将生成的动作序列转换为机器人可执行的控制信号,控制机器人执行相应动作。

框架技术原理

  • 视觉 – 语言模型(VLM):使用 SmolVLM2 作为其 VLM 主干,模型经过优化,能处理多图像输入。包含一个 SigLIP 视觉编码器和一个 SmolLM2 语言解码器。图像标记通过视觉编码器提取,语言指令被标记化后直接输入解码器,传感运动状态则通过线性层投影到一个标记上,与语言模型的标记维度对齐。解码器层处理连接的图像、语言和状态标记,得到的特征随后传递给动作专家。
  • 动作专家:是一个轻量级的 Transformer(约 1 亿参数),基于 VLM 的输出,生成未来机器人的动作序列块。动作专家采用流匹配技术进行训练,通过引导噪声样本回归真实数据分布来学习动作生成,实现高精度的实时控制。

创新点

  • 轻量化设计:仅有约 450M 参数,比现有主流 VLA 模型小 10 – 100 倍,却能在多种机器人任务中展现出与大型模型相当的性能,为边缘设备上的机器人实时控制开辟了新的可能性。
  • 异步推理堆栈:创新的异步推理栈设计,将感知处理(如视觉和语音理解)与动作执行进行解耦,使机器人在面对快速变化的环境时能做出更及时的响应,大幅提升其实用性。
  • 架构优化:采用视觉令牌缩减、层跳过策略等多项优化技术,在保持轻量化的同时实现了强大的性能。

评估标准

  • 性能表现:在模拟环境和真实场景中的任务表现,如物体抓取与放置、物体堆叠与排列、开关门、抽屉等操作、基于颜色或形状的物体分类、简单的组装任务等,与大型模型和其他竞品进行对比。
  • 响应速度:评估模型在快速变化环境中的响应速度,包括异步推理堆栈带来的响应提升效果。
  • 硬件兼容性:测试模型在不同硬件平台上的运行情况,如消费级 GPU、笔记本电脑等,评估其对硬件的兼容性和适应性。
  • 泛化能力:考察模型在不同任务和数据集上的泛化能力,验证其通用性和可扩展性。

应用领域

  • 资源受限的边缘设备:如家用服务机器人、教育机器人等,由于其轻量级和低硬件要求的特点,适合在这些设备上部署。
  • 实时控制场景:需要快速响应的任务,如物体追踪与抓取,异步推理技术可以提高机器人的响应速度和任务吞吐量,满足实时控制的需求。
  • 研究与教育:作为研究和教学平台,降低 VLA 技术的入门门槛,方便学生和研究人员更好地理解和开发机器人技术。

项目地址

© 版权声明

相关文章

暂无评论

暂无评论...