SIMA 2:谷歌DeepMind推出的第二代通用AI智能体

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

SIMA 2是谷歌DeepMind推出的第二代通用AI智能体,全称“可扩展指令多世界智能体”(Scalable Instructable Multiworld Agent)。其核心突破在于通过整合Gemini 2.5 flash-lite大语言模型,实现从“机械执行指令”到“理解目标、自主推理”的质变。该智能体通过观察屏幕像素并使用虚拟键盘鼠标操作,无需修改游戏底层代码,可在《无人深空》《山羊模拟器3》等商业游戏及Genie 3生成的全新3D环境中完成任务,展示出跨虚拟环境的泛化能力。SIMA 2:谷歌DeepMind推出的第二代通用AI智能体

功能特点

  1. 多模态交互与推理:支持文字、语音、手绘草图、emoji等输入方式,能理解抽象符号与动作的关联(如通过斧头和树木的emoji识别“砍树”任务),并显式解释推理过程(例如根据“成熟番茄是红色”推断应前往红色房屋)。
  2. 跨环境知识迁移:在《无人深空》中学到的“采集资源”可迁移至MineDojo的“挖矿”,在《英灵神殿》中掌握的“使用工具”可应用于ASKA的“装备武器”,体现概念层面的通用性。
  3. 自我改进机制:通过自生成任务数据与奖励模型评分,实现无需人类干预的自主学习。例如,在Genie 3生成的全新环境中,SIMA 2可自主探索并完成复杂指令。
  4. 高成功率与接近人类表现:在训练过的游戏环境中任务成功率达65%,接近人类玩家的75%;在未训练过的MineDojo和ASKA游戏中,成功率较前代提升13%和12%。

优缺点

优点

  • 突破传统AI依赖底层代码的限制,通过屏幕观察与虚拟操作实现跨游戏通用性。
  • 自我改进机制大幅降低对人类标注数据的依赖,提升训练效率。
  • 多模态交互与推理能力使其更接近人类玩家的决策模式。

缺点

  • 复杂任务处理能力有限,长时间多步骤任务仍存困难。
  • 虚拟键鼠操作精度不足,输入方式怪异的游戏中表现可能下降。
  • 模拟到现实的鸿沟(sim-to-real gap)尚未解决,技能迁移至真实机器人仍需突破。

主要应用场景

  1. 游戏AI开发:作为NPC或对手,提升游戏策略深度与交互体验。
  2. 机器人预训练:通过虚拟环境训练高层认知能力(如任务理解、路径规划),再迁移至真实机器人。
  3. 多任务自动化:在工业仿真、物流模拟等场景中执行跨领域任务。
  4. AI研究工具:为具身智能(Embodied AI)领域提供标准化测试平台。

使用方式

目前SIMA 2仅以“有限研究预览版”形式开放,仅面向学术机构与游戏开发者。用户需提交申请获取访问权限,通过DeepMind提供的API接口调用智能体,在指定虚拟环境中测试其任务完成能力。

官方网址

DeepMind官方网站:https://deepmind.google
SIMA 2研究预览版申请入口(需通过学术或企业邮箱注册):https://deepmind.google/research/sima-2

© 版权声明

相关文章

暂无评论

暂无评论...