SkillClaw : 高德开源的 AI Agent 技能集体进化框架
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
SkillClaw 是由高德地图机器学习团队(AMAP-ML / DreamX Team)于 2026 年 4 月开源的 AI Agent 技能集体进化框架,论文题为《SkillClaw: Let Skills Evolve Collectively with Agentic Evolver》,发表于 arXiv(编号 2604.08377)。该框架针对当前 LLM Agent(如 OpenClaw、Hermes、Claude Code 等)的核心痛点——技能库部署后即”冻结”,不同用户在各自会话中反复踩同样的坑却无法共享经验——提出了”集体进化”解决方案。系统通过本地 API 代理拦截 Agent 会话,在后台自动聚合跨用户、跨设备的交互轨迹,由一个自主进化器(Agentic Evolver)通过开放式推理分析成功与失败模式,精炼现有技能或创建新技能,经验证后同步回所有用户。实验表明,在 WildClawBench(60 个真实 Agent 任务)上经过 6 轮昼夜演化,社交互动类任务 Day 2 即达稳态,创意合成类相对提升高达 88.41%,整体平均胜率从 30.4% 暴涨至 72.5%。GitHub 开源后已获 1.2K+ Star,支持 Hermes、Claude Code、OpenClaw、Codex、QwenPaw、IronClaw、PicoClaw 等主流 Agent 框架及任意 OpenAI-compatible API。
功能特点
- 零侵入式接入:通过 Client Proxy 拦截 Agent 与上游 LLM API 之间的通信,用户正常对话即可,技能进化全程静默完成,无需修改任何 Agent 代码或工作流。
- 四层集体进化:支持单用户多设备、多 Agent、多团队成员四个层次的经验聚合,群体规模越大进化信号越丰富,技能提升越显著。
- 自主进化引擎(Agentic Evolver):核心是一个配备结构化 Harness 的 LLM Agent,对分组后的会话证据进行开放式推理,自主决定 Refine(精炼现有技能)、Create(创建新技能)或 Skip(跳过),而非依赖预定义规则。
- 成功/失败联合分析:Evolver 同时审视技能的成功执行和失败执行,成功会话定义”不变量”(必须保留的有效部分),失败会话定义”修改目标”,防止修复一个 Bug 的同时破坏已验证的功能。
- 夜间验证机制(CI/CD 式部署):候选技能更新不直接上线,而是在真实用户环境的空闲时段进行沙盒对比测试,只有新版本确实在相同任务上表现更优才会被 Accept 并同步,保证技能池单调递增、永不退化。
- 双进化引擎可选:Workflow 引擎提供固定的 Summarize → Aggregate → Execute 三阶段 LLM 管道,稳定可预测;Agent 引擎基于 OpenClaw 智能体工作区,拥有完整工具访问权限,适合需要复杂编辑的高价值技能进化。
- 灵活存储与部署:支持本地文件系统、阿里云 OSS、AWS S3 等多种共享存储后端,个人单机或团队协作可无缝切换,无需重构架构。
- 双语可视化仪表盘:通过
skillclaw dashboard serve启动本地面板,可查看技能版本对比、验证状态、会话溯源与进化轨迹。 - 内置版本管理与质量自治:技能库支持多版本共存与回滚,自动去重合并相似技能、优化低质量技能、归档过时技能,防止技能库膨胀混乱。
优缺点
优点:
- 真正实现”一人踩坑,全员免疫”的群体智能,跨用户经验自动沉淀,新用户从第一天起就享受前辈积累的所有改进。
- 零代码接入,兼容几乎所有主流 CLI Agent 框架和 OpenAI-compatible API,部署成本极低(
git clone + bash scripts/install_skillclaw.sh即可)。 - 夜间验证机制确保只有经过实战检验的更新才会部署,技能池质量单调递增,用户体验持续改善。
- 进化效果对”过程性知识缺失”(如端口写错、漏环境检查步骤)特别显著,保存报告类任务从 28.3% 直飙 100%,基础提取从 21.7% 提升至 69.6%。
- 开源协议友好,GitHub 活跃,1.2K+ Star,团队持续维护。
缺点:
- 进化对”纯推理层面”的任务帮助有限(如截止日期解析仅提升 6.9%),技能进化更擅长修复过程性执行缺陷,对深层语义理解的改进有限。
- 当前实验规模较小(8 个并发用户、6 天、60 个任务),大规模长期部署的收敛性和稳定性尚待验证。
- 集中式进化引擎可能成为性能瓶颈,且所有用户数据需上传共享存储,数据隐私敏感场景需额外考虑。
- Evolver 的开放式推理虽然灵活,但难以完全预测进化方向,存在产生意外副作用的风险(虽有验证机制缓解)。
- 未被触发的 skill 永远不会进化——如果某个 skill 因设计缺陷导致用户绕开它,它就永远不会被改进。
- 依赖 Qwen3-Max 等强基座模型的推理能力,跨模型泛化性尚未充分验证。
如何使用
- 环境准备:确保系统为 macOS / Linux / Windows,Python ≥ 3.10,安装 Git。
- 克隆安装:打开终端,执行
git clone https://github.com/AMAP-ML/SkillClaw.git && cd SkillClaw,然后运行bash scripts/install_skillclaw.sh,按提示创建虚拟环境并安装依赖。 - 初始化配置:执行
skillclaw setup,向导会引导你选择使用的 Agent 框架(如 Hermes)、配置上游 API 密钥(OpenAI / Anthropic / 通义千问等)、选择存储后端(本地目录或 OSS/S3)。 - 启动代理:执行
skillclaw start --daemon,本地 API 代理会在后台运行,自动拦截 Agent 的所有 API 请求并记录会话轨迹。 - 正常使用 Agent:像往常一样打开 Hermes、Claude Code 或任何 Agent 工具完成任务,SkillClaw 在后台静默收集所有交互数据,你不需要做任何额外操作。
- 启动进化服务器(可选):执行
skillclaw-evolve-server start,后台进化服务会定期扫描共享存储中的会话数据,启动进化流程。 - 查看仪表盘(可选):执行
skillclaw dashboard serve,在浏览器中打开本地面板,查看技能版本对比、进化轨迹和验证结果。 - 同步技能:使用
skillclaw skills pull/push/sync在本地与 OSS/S3 之间双向同步技能库,团队成员配置相同存储凭证即可自动共享进化后的技能。
框架技术原理
SkillClaw 的技术架构由三大核心组件构成闭环进化管道:
1. Client Proxy(客户端代理)—— 会话采集层
- 作为本地 API 代理运行,拦截 Agent 发往
/v1/chat/completions或/v1/messages等端点的请求。 - 记录完整的因果链轨迹:用户 prompt → Agent 动作(含工具调用及参数)→ 中间反馈(工具结果、stderr、错误信息)→ 最终响应。
- 关键设计:保留完整中间过程而非仅最终回复,因为大多数技能级失败是过程性的(参数格式错误、漏验证步骤、工具调用顺序不对),这些只能从动作-反馈链中诊断。
- 会话按引用的技能分组存储:G(s) = {τ_i | s ∈ K_i},未使用任何技能的会话归入 G(∅) 用于发现缺失的可复用流程。
2. Evolve Server(进化服务器)—— 技能进化层
- 定期扫描共享存储中的会话数据,提供两种进化引擎:
- Workflow 引擎:固定三阶段 LLM 管道——Summarize(总结会话)→ Aggregate(识别重复模式)→ Execute(进化或创建技能并写回),高效稳定,适合大多数场景。
- Agent 引擎:基于 OpenClaw 的自主智能体工作区,拥有完整的读/写/执行工具权限,直接分析模式并编辑技能文件,适合需要复杂推理的高价值技能。
- Agentic Evolver 核心算法:给定技能 s 及其会话组 G(s),Evolver 联合分析成功和失败执行,选择三种动作之一——Refine(修正已识别错误或提升鲁棒性)、Create(发现未被覆盖的重复子流程并新建技能)、Skip(证据不足时保持不变)。关键约束:成功会话定义不变量,失败会话定义修改目标,确保演化累积且不破坏已验证功能。
3. 夜间验证 + 技能同步—— 质量保障层
- 候选技能更新不直接部署,而是进入验证队列。系统在真实用户环境的空闲时段,用当天收集的交互数据作为测试集,让旧技能 s 和候选技能 s’ 在相同环境下并行执行(含完整工具链、多步交互、中间反馈)。
- LLM 对比执行结果,基于整体任务成功率和执行稳定性判断:更优则 Accept 并合并入共享库,次日通过 SkillHub 同步给所有 Agent;否则 Reject,仅保存为候选记录。
- 这保证了单调部署性质:用户看到的技能池只会越来越好,不会退化。
创新点
- 首个多用户集体技能进化框架:从 Voyager(技能积累)→ Expel(经验提炼)→ MemEvolve(记忆技能演化)→ MetaClaw(单用户持续学习)→ SkillClaw(多用户集体演化),实现了 Agent 技能管理范式的代际跃迁。
- Agentic Evolver 替代预定义规则:进化引擎本身是一个 LLM Agent,通过开放式推理自主决定技能修改策略,而非依赖手工规则,能处理各种未见过的失败模式。
- “日夜交替”闭环架构:白天用户正常交互、系统静默采集;夜间进化引擎集中处理、验证、部署。进化计算与用户体验完全解耦,零延迟影响。
- 自然消融实验设计:多用户调用同一技能产生不同结果时,技能本身成为受控变量,直接暴露其行为边界,这是单用户系统无法实现的。
- CI/CD 式技能部署:将软件工程的验证-部署流水线引入 Agent 技能管理,确保每次进化都经过实战检验,防止”越改越差”。
- 跨框架无锁定设计:不绑定特定 Agent 生态,原生支持 Hermes、Claude Code、OpenClaw、Codex、QwenPaw、IronClaw、PicoClaw 等,以及任意 OpenAI-compatible API。
- 从”模型中心”到”数据中心”的范式转移:展示了 Agent 能力增长可以不依赖更大模型,而是通过持续用户交互和集体学习实现——用的越多,进化信号越丰富,技能越强大。
评估标准
| 评估维度 | 基准/方式 | SkillClaw 成绩 | 关键发现 |
|---|---|---|---|
| 整体性能 | WildClawBench(60 个真实 Agent 任务,6 大领域) | Day 1 基线 30.4% → Day 6 72.5%,平均提升 +42.1% | 持续单调递增,无退化 |
| 社交互动 | 同上(谈判、聊天分析等) | Day 2 即达稳态,从 54% 跳至 60% 并保持 | 存在高影响单一瓶颈,一旦突破即稳 |
| 创意合成 | 同上(视频笔记、海报生成等) | 相对提升 +88.41%(从 11.57% 基数跃升) | 瓶颈在环境配置而非内容生成 |
| 搜索检索 | 同上(学术搜索、冲突解决等) | 22.73% → 30.00% → 34.55%,阶梯式上升 | 先解决输入可靠性,再提升检索规划 |
| 代码智能 | 同上(调试、益智解题等) | 显著提升,执行正确性改善明显 | 过程性错误修复效果突出 |
| 安全对齐 | 同上(提示注入检测等) | Day 5 才开始明显见效 | 改进集中在执行鲁棒性(Git 认证回退等) |
| 受控单轮进化 | 三个定制查询 | 基础提取 21.7%→69.6%(+47.8%);保存报告 28.3%→100%(+71.7%);截止日期解析 41.1%→48.0%(+6.9%) | 过程性知识缺陷修复效果远超纯推理任务 |
| 技能质量 | 验证通过率 | 仅部分候选更新通过(如社交互动类 6 轮仅 1 个通过) | 保守验证确保质量,但也限制了进化速度 |
应用领域
- 企业团队知识沉淀:技术团队将调试经验、代码规范、部署流程自动固化为可复用技能,新员工从第一天起享受前辈积累,大幅降低上手成本。
- 多 Agent 协作优化:前端 Agent 学会的 React 优化模式自动共享给后端 Agent,API 设计效率跨团队提升。
- 个人多设备经验同步:家里的 Hermes 学了 K8s 部署,公司的学了 ML 调参,接入 SkillClaw 后所有设备共享同一进化技能库。
- 自动化技能库运维:替代手动整理
.hermes/skills目录,解决技能重复、过时、混乱问题,实现技能质量自治。 - 长尾场景自动覆盖:用户在真实任务中遇到的罕见错误(如 SAM3 视觉模型在纯 CPU 环境崩溃),进化后自动添加环境预检和 Monkey Patch 修复。
- 开放平台持续进化:AI 助手产品接入后,用户使用越多技能越强,形成”用的越多越聪明”的正向飞轮。
项目地址
- GitHub 仓库:https://github.com/AMAP-ML/SkillClaw
- 论文(arXiv):https://arxiv.org/abs/2604.08377
- 超神经论文页:https://hyper.ai/cn/papers/2604.08377
- 在线解读(知乎):https://zhuanlan.zhihu.com/p/2031797407416049910
- B 站深度解析:https://www.bilibili.com/opus/1193162530725298180
- DreamX 团队博客:https://ai-bot.cn/skillclaw/
- 36Kr 报道:https://36kr.com/p/3767753692201481