SkillClaw : 高德开源的 AI Agent 技能集体进化框架

AI工具2小时前发布 FuturX-Editor
6 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

SkillClaw 是由高德地图机器学习团队(AMAP-ML / DreamX Team)于 2026 年 4 月开源的 AI Agent 技能集体进化框架,论文题为《SkillClaw: Let Skills Evolve Collectively with Agentic Evolver》,发表于 arXiv(编号 2604.08377)。该框架针对当前 LLM Agent(如 OpenClaw、Hermes、Claude Code 等)的核心痛点——技能库部署后即”冻结”,不同用户在各自会话中反复踩同样的坑却无法共享经验——提出了”集体进化”解决方案。系统通过本地 API 代理拦截 Agent 会话,在后台自动聚合跨用户、跨设备的交互轨迹,由一个自主进化器(Agentic Evolver)通过开放式推理分析成功与失败模式,精炼现有技能或创建新技能,经验证后同步回所有用户。实验表明,在 WildClawBench(60 个真实 Agent 任务)上经过 6 轮昼夜演化,社交互动类任务 Day 2 即达稳态,创意合成类相对提升高达 88.41%,整体平均胜率从 30.4% 暴涨至 72.5%。GitHub 开源后已获 1.2K+ Star,支持 Hermes、Claude Code、OpenClaw、Codex、QwenPaw、IronClaw、PicoClaw 等主流 Agent 框架及任意 OpenAI-compatible API。SkillClaw : 高德开源的 AI Agent 技能集体进化框架

功能特点

  • 零侵入式接入:通过 Client Proxy 拦截 Agent 与上游 LLM API 之间的通信,用户正常对话即可,技能进化全程静默完成,无需修改任何 Agent 代码或工作流。
  • 四层集体进化:支持单用户多设备、多 Agent、多团队成员四个层次的经验聚合,群体规模越大进化信号越丰富,技能提升越显著。
  • 自主进化引擎(Agentic Evolver):核心是一个配备结构化 Harness 的 LLM Agent,对分组后的会话证据进行开放式推理,自主决定 Refine(精炼现有技能)、Create(创建新技能)或 Skip(跳过),而非依赖预定义规则。
  • 成功/失败联合分析:Evolver 同时审视技能的成功执行和失败执行,成功会话定义”不变量”(必须保留的有效部分),失败会话定义”修改目标”,防止修复一个 Bug 的同时破坏已验证的功能。
  • 夜间验证机制(CI/CD 式部署):候选技能更新不直接上线,而是在真实用户环境的空闲时段进行沙盒对比测试,只有新版本确实在相同任务上表现更优才会被 Accept 并同步,保证技能池单调递增、永不退化。
  • 双进化引擎可选:Workflow 引擎提供固定的 Summarize → Aggregate → Execute 三阶段 LLM 管道,稳定可预测;Agent 引擎基于 OpenClaw 智能体工作区,拥有完整工具访问权限,适合需要复杂编辑的高价值技能进化。
  • 灵活存储与部署:支持本地文件系统、阿里云 OSS、AWS S3 等多种共享存储后端,个人单机或团队协作可无缝切换,无需重构架构。
  • 双语可视化仪表盘:通过 skillclaw dashboard serve 启动本地面板,可查看技能版本对比、验证状态、会话溯源与进化轨迹。
  • 内置版本管理与质量自治:技能库支持多版本共存与回滚,自动去重合并相似技能、优化低质量技能、归档过时技能,防止技能库膨胀混乱。

优缺点

优点

  • 真正实现”一人踩坑,全员免疫”的群体智能,跨用户经验自动沉淀,新用户从第一天起就享受前辈积累的所有改进。
  • 零代码接入,兼容几乎所有主流 CLI Agent 框架和 OpenAI-compatible API,部署成本极低(git clone + bash scripts/install_skillclaw.sh 即可)。
  • 夜间验证机制确保只有经过实战检验的更新才会部署,技能池质量单调递增,用户体验持续改善。
  • 进化效果对”过程性知识缺失”(如端口写错、漏环境检查步骤)特别显著,保存报告类任务从 28.3% 直飙 100%,基础提取从 21.7% 提升至 69.6%。
  • 开源协议友好,GitHub 活跃,1.2K+ Star,团队持续维护。

缺点

  • 进化对”纯推理层面”的任务帮助有限(如截止日期解析仅提升 6.9%),技能进化更擅长修复过程性执行缺陷,对深层语义理解的改进有限。
  • 当前实验规模较小(8 个并发用户、6 天、60 个任务),大规模长期部署的收敛性和稳定性尚待验证。
  • 集中式进化引擎可能成为性能瓶颈,且所有用户数据需上传共享存储,数据隐私敏感场景需额外考虑。
  • Evolver 的开放式推理虽然灵活,但难以完全预测进化方向,存在产生意外副作用的风险(虽有验证机制缓解)。
  • 未被触发的 skill 永远不会进化——如果某个 skill 因设计缺陷导致用户绕开它,它就永远不会被改进。
  • 依赖 Qwen3-Max 等强基座模型的推理能力,跨模型泛化性尚未充分验证。

如何使用

  1. 环境准备:确保系统为 macOS / Linux / Windows,Python ≥ 3.10,安装 Git。
  2. 克隆安装:打开终端,执行 git clone https://github.com/AMAP-ML/SkillClaw.git && cd SkillClaw,然后运行 bash scripts/install_skillclaw.sh,按提示创建虚拟环境并安装依赖。
  3. 初始化配置:执行 skillclaw setup,向导会引导你选择使用的 Agent 框架(如 Hermes)、配置上游 API 密钥(OpenAI / Anthropic / 通义千问等)、选择存储后端(本地目录或 OSS/S3)。
  4. 启动代理:执行 skillclaw start --daemon,本地 API 代理会在后台运行,自动拦截 Agent 的所有 API 请求并记录会话轨迹。
  5. 正常使用 Agent:像往常一样打开 Hermes、Claude Code 或任何 Agent 工具完成任务,SkillClaw 在后台静默收集所有交互数据,你不需要做任何额外操作。
  6. 启动进化服务器(可选):执行 skillclaw-evolve-server start,后台进化服务会定期扫描共享存储中的会话数据,启动进化流程。
  7. 查看仪表盘(可选):执行 skillclaw dashboard serve,在浏览器中打开本地面板,查看技能版本对比、进化轨迹和验证结果。
  8. 同步技能:使用 skillclaw skills pull/push/sync 在本地与 OSS/S3 之间双向同步技能库,团队成员配置相同存储凭证即可自动共享进化后的技能。

框架技术原理

SkillClaw 的技术架构由三大核心组件构成闭环进化管道:

1. Client Proxy(客户端代理)—— 会话采集层

  • 作为本地 API 代理运行,拦截 Agent 发往 /v1/chat/completions 或 /v1/messages 等端点的请求。
  • 记录完整的因果链轨迹:用户 prompt → Agent 动作(含工具调用及参数)→ 中间反馈(工具结果、stderr、错误信息)→ 最终响应。
  • 关键设计:保留完整中间过程而非仅最终回复,因为大多数技能级失败是过程性的(参数格式错误、漏验证步骤、工具调用顺序不对),这些只能从动作-反馈链中诊断。
  • 会话按引用的技能分组存储:G(s) = {τ_i | s ∈ K_i},未使用任何技能的会话归入 G(∅) 用于发现缺失的可复用流程。

2. Evolve Server(进化服务器)—— 技能进化层

  • 定期扫描共享存储中的会话数据,提供两种进化引擎:
    • Workflow 引擎:固定三阶段 LLM 管道——Summarize(总结会话)→ Aggregate(识别重复模式)→ Execute(进化或创建技能并写回),高效稳定,适合大多数场景。
    • Agent 引擎:基于 OpenClaw 的自主智能体工作区,拥有完整的读/写/执行工具权限,直接分析模式并编辑技能文件,适合需要复杂推理的高价值技能。
  • Agentic Evolver 核心算法:给定技能 s 及其会话组 G(s),Evolver 联合分析成功和失败执行,选择三种动作之一——Refine(修正已识别错误或提升鲁棒性)、Create(发现未被覆盖的重复子流程并新建技能)、Skip(证据不足时保持不变)。关键约束:成功会话定义不变量,失败会话定义修改目标,确保演化累积且不破坏已验证功能。

3. 夜间验证 + 技能同步—— 质量保障层

  • 候选技能更新不直接部署,而是进入验证队列。系统在真实用户环境的空闲时段,用当天收集的交互数据作为测试集,让旧技能 s 和候选技能 s’ 在相同环境下并行执行(含完整工具链、多步交互、中间反馈)。
  • LLM 对比执行结果,基于整体任务成功率和执行稳定性判断:更优则 Accept 并合并入共享库,次日通过 SkillHub 同步给所有 Agent;否则 Reject,仅保存为候选记录。
  • 这保证了单调部署性质:用户看到的技能池只会越来越好,不会退化。

创新点

  • 首个多用户集体技能进化框架:从 Voyager(技能积累)→ Expel(经验提炼)→ MemEvolve(记忆技能演化)→ MetaClaw(单用户持续学习)→ SkillClaw(多用户集体演化),实现了 Agent 技能管理范式的代际跃迁。
  • Agentic Evolver 替代预定义规则:进化引擎本身是一个 LLM Agent,通过开放式推理自主决定技能修改策略,而非依赖手工规则,能处理各种未见过的失败模式。
  • “日夜交替”闭环架构:白天用户正常交互、系统静默采集;夜间进化引擎集中处理、验证、部署。进化计算与用户体验完全解耦,零延迟影响。
  • 自然消融实验设计:多用户调用同一技能产生不同结果时,技能本身成为受控变量,直接暴露其行为边界,这是单用户系统无法实现的。
  • CI/CD 式技能部署:将软件工程的验证-部署流水线引入 Agent 技能管理,确保每次进化都经过实战检验,防止”越改越差”。
  • 跨框架无锁定设计:不绑定特定 Agent 生态,原生支持 Hermes、Claude Code、OpenClaw、Codex、QwenPaw、IronClaw、PicoClaw 等,以及任意 OpenAI-compatible API。
  • 从”模型中心”到”数据中心”的范式转移:展示了 Agent 能力增长可以不依赖更大模型,而是通过持续用户交互和集体学习实现——用的越多,进化信号越丰富,技能越强大。

评估标准

评估维度 基准/方式 SkillClaw 成绩 关键发现
整体性能 WildClawBench(60 个真实 Agent 任务,6 大领域) Day 1 基线 30.4% → Day 6 72.5%,平均提升 +42.1% 持续单调递增,无退化
社交互动 同上(谈判、聊天分析等) Day 2 即达稳态,从 54% 跳至 60% 并保持 存在高影响单一瓶颈,一旦突破即稳
创意合成 同上(视频笔记、海报生成等) 相对提升 +88.41%(从 11.57% 基数跃升) 瓶颈在环境配置而非内容生成
搜索检索 同上(学术搜索、冲突解决等) 22.73% → 30.00% → 34.55%,阶梯式上升 先解决输入可靠性,再提升检索规划
代码智能 同上(调试、益智解题等) 显著提升,执行正确性改善明显 过程性错误修复效果突出
安全对齐 同上(提示注入检测等) Day 5 才开始明显见效 改进集中在执行鲁棒性(Git 认证回退等)
受控单轮进化 三个定制查询 基础提取 21.7%→69.6%(+47.8%);保存报告 28.3%→100%(+71.7%);截止日期解析 41.1%→48.0%(+6.9%) 过程性知识缺陷修复效果远超纯推理任务
技能质量 验证通过率 仅部分候选更新通过(如社交互动类 6 轮仅 1 个通过) 保守验证确保质量,但也限制了进化速度

应用领域

  • 企业团队知识沉淀:技术团队将调试经验、代码规范、部署流程自动固化为可复用技能,新员工从第一天起享受前辈积累,大幅降低上手成本。
  • 多 Agent 协作优化:前端 Agent 学会的 React 优化模式自动共享给后端 Agent,API 设计效率跨团队提升。
  • 个人多设备经验同步:家里的 Hermes 学了 K8s 部署,公司的学了 ML 调参,接入 SkillClaw 后所有设备共享同一进化技能库。
  • 自动化技能库运维:替代手动整理 .hermes/skills 目录,解决技能重复、过时、混乱问题,实现技能质量自治。
  • 长尾场景自动覆盖:用户在真实任务中遇到的罕见错误(如 SAM3 视觉模型在纯 CPU 环境崩溃),进化后自动添加环境预检和 Monkey Patch 修复。
  • 开放平台持续进化:AI 助手产品接入后,用户使用越多技能越强,形成”用的越多越聪明”的正向飞轮。

项目地址

  • GitHub 仓库:https://github.com/AMAP-ML/SkillClaw
  • 论文(arXiv):https://arxiv.org/abs/2604.08377
  • 超神经论文页:https://hyper.ai/cn/papers/2604.08377
  • 在线解读(知乎):https://zhuanlan.zhihu.com/p/2031797407416049910
  • B 站深度解析:https://www.bilibili.com/opus/1193162530725298180
  • DreamX 团队博客:https://ai-bot.cn/skillclaw/
  • 36Kr 报道:https://36kr.com/p/3767753692201481
© 版权声明

相关文章

暂无评论

暂无评论...