Mobile-Agent-v3.5 : 阿里通义开源的多平台GUI Agent框架
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
Mobile-Agent-v3.5 是阿里巴巴通义实验室开源的新一代多平台 GUI Agent 框架,旨在解决跨平台 GUI 自动化中的复杂任务执行、长程规划、环境感知等难题。该框架原生支持桌面(Windows/macOS/Ubuntu)、手机(Android)和浏览器三大平台,通过统一的控制接口实现多端无缝协同。其核心模型家族 GUI-Owl-1.5 提供从 2B 到 32B 的多参数规模,并解耦出 Instruct(轻量低延迟) 和 Thinking(强规划反思) 两种变体,支持从端侧实时交互到云端复杂推理的全链路部署。
功能特点
- 跨平台统一控制:原生支持桌面、手机、浏览器,覆盖主流操作系统。
- 多参数模型覆盖:提供 2B/4B/8B/32B 参数规模,适配不同硬件环境。
- 双模式推理架构:
- Instruct 变体:专注极速响应,适合端侧高频交互(如滑动、点击)。
- Thinking 变体:支持长程规划与反思,适合云端复杂任务(如跨应用协作)。
- 长程任务规划:通过统一思维链(CoT)合成技术,实现多步骤任务分解与动态调整。
- 多模态感知理解:结合视觉与语义信息,精准识别界面元素(如按钮、文本框)。
- 工具调用与 MCP 支持:原生支持外部 API 调用,扩展工作流闭环能力。
- 端云协同部署:端侧执行原子操作,云端规划复杂任务,降低延迟与资源消耗。
优缺点
优点:
- 真正的跨平台:统一架构适配多端,避免重复开发。
- 灵活的模型变体:Instruct/Thinking 满足不同场景需求,平衡延迟与性能。
- 自我进化能力:通过混合数据飞轮(Hybird Data Flywheel)持续优化模型。
- 开源生态兼容:支持 ModelScope 和 HuggingFace 一键部署。
缺点:
- 硬件要求较高:Thinking 变体需云端支持,端侧部署依赖 2B/4B 轻量模型。
- 复杂任务需调优:长程任务依赖高质量轨迹数据,初期需人工干预。
如何使用
- 环境准备:
- 准备一台 PC(Windows/macOS/Ubuntu)或 Android 手机。
- 安装 ADB 工具(手机调试)和 PyAutoGUI(桌面自动化)。
- 获取模型:
- 从 ModelScope 或 Hugging Face 下载预训练模型(如 GUI-Owl-1.5-2B-Instruct)。
- 启动框架:
- 克隆 GitHub 仓库:
git clone https://github.com/X-PLUG/MobileAgent.git。 - 运行启动脚本(如
python run_mobileagentv3.py),通过命令行或图形界面输入任务指令(如“打开微信并发送消息”)。
- 克隆 GitHub 仓库:
- 任务执行:
- 框架自动分解任务为子步骤,调用对应平台的原子操作(如点击、滑动)。
- 实时监控任务进度,异常时触发反思与修复机制。
框架技术原理
- 分层架构设计:
- 基础设施层:基于阿里云构建跨平台沙箱环境,支持大规模轨迹数据生成。
- 智能代理层:包含感知、管理、执行、反思、记录五大智能体,协同完成任务。
- 应用执行层:通过 PyAutoGUI 和 ADB 实现跨平台原子操作。
- 混合数据飞轮:
- 结合仿真环境与云端沙箱,规模化生成高质量 Grounding 数据(如高分辨率 UI 截图)和长轨迹数据。
- 通过轨迹挖掘、教程字幕解析和负样本生成,提升模型泛化能力。
- 统一思维链合成:
- 每一步操作前输出结构化中间状态(如观察、反思、记忆),形成闭环推理。
- 支持工具调用与 MCP 协议,扩展工作流能力。
创新点
- MRPO 强化学习算法:解决多平台训练梯度冲突问题,提升长程任务稳定性。
- 双变体模型设计:Instruct/Thinking 变体兼顾实时性与复杂性,支持端云协同。
- 自我进化轨迹生产:通过 DAG 任务合成与虚拟环境,低成本生成专家轨迹。
- 世界模型注入:预判界面变化(如弹窗、焦点转移),降低试错成本。
评估标准
- 基准测试成绩:在 OSWorld-Verified(56.5)、AndroidWorld(71.6)、VisualWebArena(46.6)等 20+ 榜单中取得开源领域 SOTA。
- 任务成功率:复杂跨应用任务成功率超 37.7%(OSWorld),单应用任务成功率超 73.3%(AndroidWorld)。
- 长程稳定性:通过统一 CoT 合成,减少长任务中的误差累积。
应用领域
- 智能办公:自动化文档处理、邮件发送、会议安排。
- 电商比价:跨平台商品搜索与价格对比。
- 社交媒体管理:自动发布内容、回复消息。
- 企业流程自动化:ERP/CRM 系统界面操作。
- 无障碍辅助:帮助视障用户操作数字设备。
项目地址
- GitHub 仓库:https://github.com/X-PLUG/MobileAgent
- ModelScope 模型库:https://modelscope.cn/models/iic/GUI-Owl-1.5-2B-Instruct
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...