SIMA 2:谷歌DeepMind推出的第二代通用AI智能体
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
SIMA 2是谷歌DeepMind推出的第二代通用AI智能体,全称“可扩展指令多世界智能体”(Scalable Instructable Multiworld Agent)。其核心突破在于通过整合Gemini 2.5 flash-lite大语言模型,实现从“机械执行指令”到“理解目标、自主推理”的质变。该智能体通过观察屏幕像素并使用虚拟键盘鼠标操作,无需修改游戏底层代码,可在《无人深空》《山羊模拟器3》等商业游戏及Genie 3生成的全新3D环境中完成任务,展示出跨虚拟环境的泛化能力。
功能特点
- 多模态交互与推理:支持文字、语音、手绘草图、emoji等输入方式,能理解抽象符号与动作的关联(如通过斧头和树木的emoji识别“砍树”任务),并显式解释推理过程(例如根据“成熟番茄是红色”推断应前往红色房屋)。
- 跨环境知识迁移:在《无人深空》中学到的“采集资源”可迁移至MineDojo的“挖矿”,在《英灵神殿》中掌握的“使用工具”可应用于ASKA的“装备武器”,体现概念层面的通用性。
- 自我改进机制:通过自生成任务数据与奖励模型评分,实现无需人类干预的自主学习。例如,在Genie 3生成的全新环境中,SIMA 2可自主探索并完成复杂指令。
- 高成功率与接近人类表现:在训练过的游戏环境中任务成功率达65%,接近人类玩家的75%;在未训练过的MineDojo和ASKA游戏中,成功率较前代提升13%和12%。
优缺点
优点:
- 突破传统AI依赖底层代码的限制,通过屏幕观察与虚拟操作实现跨游戏通用性。
- 自我改进机制大幅降低对人类标注数据的依赖,提升训练效率。
- 多模态交互与推理能力使其更接近人类玩家的决策模式。
缺点:
- 复杂任务处理能力有限,长时间多步骤任务仍存困难。
- 虚拟键鼠操作精度不足,输入方式怪异的游戏中表现可能下降。
- 模拟到现实的鸿沟(sim-to-real gap)尚未解决,技能迁移至真实机器人仍需突破。
主要应用场景
- 游戏AI开发:作为NPC或对手,提升游戏策略深度与交互体验。
- 机器人预训练:通过虚拟环境训练高层认知能力(如任务理解、路径规划),再迁移至真实机器人。
- 多任务自动化:在工业仿真、物流模拟等场景中执行跨领域任务。
- AI研究工具:为具身智能(Embodied AI)领域提供标准化测试平台。
使用方式
目前SIMA 2仅以“有限研究预览版”形式开放,仅面向学术机构与游戏开发者。用户需提交申请获取访问权限,通过DeepMind提供的API接口调用智能体,在指定虚拟环境中测试其任务完成能力。
官方网址
DeepMind官方网站:https://deepmind.google
SIMA 2研究预览版申请入口(需通过学术或企业邮箱注册):https://deepmind.google/research/sima-2
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...