TuriX-CUA(Computer Use Agent)是一个基于Python开发的开源AI智能体项目,由TurixAI团队主导开发。其核心目标是让大型语言模型(如GPT-4、Claude等)直接观察和操作计算机桌面,实现“看-想-动”的完整自动化流程:通过屏幕截图获取视觉信息,利用多模态大模型分析界面状态,最终执行精准的鼠标键盘操作。该项目采用多模型架构,在测试集中任务通过率超80%,支持Windows和macOS双平台,并兼容MCP协议,可与Claude for Desktop、Cursor等工具深度集成,覆盖从日常办公到复杂商务操作的全场景需求。
功能特点
- 跨平台支持:原生兼容Windows和macOS,用户切换分支即可在不同系统运行,突破传统工具仅限Linux或特定环境的限制。
- 多模型协作架构:采用“规划师(Planner)+执行者(Executor)”分离设计,Planner将模糊指令拆解为逻辑步骤,Executor专注具体操作,显著降低误触率,提升长序列任务稳定性。
- 情境感知能力:能智能处理弹窗、加载延迟等动态变化,例如自动关闭弹窗或等待页面加载完成后再执行下一步。
- MCP协议兼容:支持与Claude for Desktop、Cursor等工具联动,实现复杂工作流协作,如通过语音指令让AI搜索新闻、生成文档并发送邮件。
- 本地化部署:支持本地模型运行(如Qwen3-VL),确保敏感数据不离开设备,兼顾隐私与离线可用性。
优缺点
优点:
- 开源透明:代码完全托管于GitHub,开发者可自由二次开发,适用于学术研究或企业私有化部署。
- 操作精准:采用先进的UI定位技术,能识别复杂网页和非标准界面元素,甚至绕过验证码(CAPTCHA)。
- 任务覆盖广:支持从文档创建、数据整理到机票预订、社交媒体管理等全场景自动化。
缺点:
- 技术门槛:需配置Python环境及依赖包,对非技术用户不够友好。
- 依赖模型性能:操作复杂任务时可能受限于所选大模型的理解能力,需多次调试指令。
- 功能待完善:部分高级功能(如多Agent协作)仍在开发中,社区生态需进一步丰富。
主要应用场景
- 日常办公:自动生成报告、整理Excel数据、回复邮件,例如从Discord聊天记录中提取数据生成图表并插入PPT。
- 商务操作:完成机票酒店预订、网约车叫车、价格比较等完整交易流程。
- 社交媒体管理:自动搜索视频、点赞内容、收集信息,为创作者节省时间。
- 开发测试:在VS Code中编写代码、调试项目,或自动化测试软件功能。
- 个性化任务:根据用户习惯定制操作,如定时备份文件、监控特定网页更新。
使用方法
环境配置:
- 安装Python 3.12和Conda,创建虚拟环境并克隆项目代码
- 模型配置:
- 在
config.json中填写模型API密钥(如OpenAI或本地模型地址),或修改main.py中的build_llm函数以支持自定义模型。
- 在
- 权限设置:
- macOS需在“系统设置-隐私与安全性-辅助功能”中授权终端和IDE,并允许远程自动化(如Safari开发菜单)。
- 任务执行:
- 在
config.json中编写任务指令(如“打开Safari搜索iPhone价格并记录到备忘录”),运行后观察AI自动操作屏幕。
- 在
收费标准
TuriX-CUA完全开源免费,用户可自由使用、修改和分发代码。若调用第三方大模型API(如GPT-4、Claude),需按对应平台计费;本地模型部署仅需承担硬件成本。项目无隐藏费用或订阅制,适合个人研究和小团队低成本试用。
TuriX-CUA的项目地址
- GitHub仓库:https://github.com/TurixAI/TuriX-CUA
相关导航
暂无评论...
