SkillClaw ：高德开源的 AI Agent 技能集体进化框架

6 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

SkillClaw 是由高德地图机器学习团队（AMAP-ML / DreamX Team）于 2026 年 4 月开源的 AI Agent 技能集体进化框架，论文题为《SkillClaw: Let Skills Evolve Collectively with Agentic Evolver》，发表于 arXiv（编号 2604.08377）。该框架针对当前 LLM Agent（如 OpenClaw、Hermes、Claude Code 等）的核心痛点——技能库部署后即”冻结”，不同用户在各自会话中反复踩同样的坑却无法共享经验——提出了”集体进化”解决方案。系统通过本地 API 代理拦截 Agent 会话，在后台自动聚合跨用户、跨设备的交互轨迹，由一个自主进化器（Agentic Evolver）通过开放式推理分析成功与失败模式，精炼现有技能或创建新技能，经验证后同步回所有用户。实验表明，在 WildClawBench（60 个真实 Agent 任务）上经过 6 轮昼夜演化，社交互动类任务 Day 2 即达稳态，创意合成类相对提升高达 88.41%，整体平均胜率从 30.4% 暴涨至 72.5%。GitHub 开源后已获 1.2K+ Star，支持 Hermes、Claude Code、OpenClaw、Codex、QwenPaw、IronClaw、PicoClaw 等主流 Agent 框架及任意 OpenAI-compatible API。 SkillClaw ：高德开源的 AI Agent 技能集体进化框架

功能特点

零侵入式接入：通过 Client Proxy 拦截 Agent 与上游 LLM API 之间的通信，用户正常对话即可，技能进化全程静默完成，无需修改任何 Agent 代码或工作流。
四层集体进化：支持单用户多设备、多 Agent、多团队成员四个层次的经验聚合，群体规模越大进化信号越丰富，技能提升越显著。
自主进化引擎（Agentic Evolver）：核心是一个配备结构化 Harness 的 LLM Agent，对分组后的会话证据进行开放式推理，自主决定 Refine（精炼现有技能）、Create（创建新技能）或 Skip（跳过），而非依赖预定义规则。
成功/失败联合分析：Evolver 同时审视技能的成功执行和失败执行，成功会话定义”不变量”（必须保留的有效部分），失败会话定义”修改目标”，防止修复一个 Bug 的同时破坏已验证的功能。
夜间验证机制（CI/CD 式部署）：候选技能更新不直接上线，而是在真实用户环境的空闲时段进行沙盒对比测试，只有新版本确实在相同任务上表现更优才会被 Accept 并同步，保证技能池单调递增、永不退化。
双进化引擎可选：Workflow 引擎提供固定的 Summarize → Aggregate → Execute 三阶段 LLM 管道，稳定可预测；Agent 引擎基于 OpenClaw 智能体工作区，拥有完整工具访问权限，适合需要复杂编辑的高价值技能进化。
灵活存储与部署：支持本地文件系统、阿里云 OSS、AWS S3 等多种共享存储后端，个人单机或团队协作可无缝切换，无需重构架构。
双语可视化仪表盘：通过 skillclaw dashboard serve 启动本地面板，可查看技能版本对比、验证状态、会话溯源与进化轨迹。
内置版本管理与质量自治：技能库支持多版本共存与回滚，自动去重合并相似技能、优化低质量技能、归档过时技能，防止技能库膨胀混乱。

优缺点

优点：

真正实现”一人踩坑，全员免疫”的群体智能，跨用户经验自动沉淀，新用户从第一天起就享受前辈积累的所有改进。
零代码接入，兼容几乎所有主流 CLI Agent 框架和 OpenAI-compatible API，部署成本极低（git clone + bash scripts/install_skillclaw.sh 即可）。
夜间验证机制确保只有经过实战检验的更新才会部署，技能池质量单调递增，用户体验持续改善。
进化效果对”过程性知识缺失”（如端口写错、漏环境检查步骤）特别显著，保存报告类任务从 28.3% 直飙 100%，基础提取从 21.7% 提升至 69.6%。
开源协议友好，GitHub 活跃，1.2K+ Star，团队持续维护。

缺点：

进化对”纯推理层面”的任务帮助有限（如截止日期解析仅提升 6.9%），技能进化更擅长修复过程性执行缺陷，对深层语义理解的改进有限。
当前实验规模较小（8 个并发用户、6 天、60 个任务），大规模长期部署的收敛性和稳定性尚待验证。
集中式进化引擎可能成为性能瓶颈，且所有用户数据需上传共享存储，数据隐私敏感场景需额外考虑。
Evolver 的开放式推理虽然灵活，但难以完全预测进化方向，存在产生意外副作用的风险（虽有验证机制缓解）。
未被触发的 skill 永远不会进化——如果某个 skill 因设计缺陷导致用户绕开它，它就永远不会被改进。
依赖 Qwen3-Max 等强基座模型的推理能力，跨模型泛化性尚未充分验证。

如何使用

环境准备：确保系统为 macOS / Linux / Windows，Python ≥ 3.10，安装 Git。
克隆安装：打开终端，执行 git clone https://github.com/AMAP-ML/SkillClaw.git && cd SkillClaw，然后运行 bash scripts/install_skillclaw.sh，按提示创建虚拟环境并安装依赖。
初始化配置：执行 skillclaw setup，向导会引导你选择使用的 Agent 框架（如 Hermes）、配置上游 API 密钥（OpenAI / Anthropic / 通义千问等）、选择存储后端（本地目录或 OSS/S3）。
启动代理：执行 skillclaw start --daemon，本地 API 代理会在后台运行，自动拦截 Agent 的所有 API 请求并记录会话轨迹。
正常使用 Agent：像往常一样打开 Hermes、Claude Code 或任何 Agent 工具完成任务，SkillClaw 在后台静默收集所有交互数据，你不需要做任何额外操作。
启动进化服务器（可选）：执行 skillclaw-evolve-server start，后台进化服务会定期扫描共享存储中的会话数据，启动进化流程。
查看仪表盘（可选）：执行 skillclaw dashboard serve，在浏览器中打开本地面板，查看技能版本对比、进化轨迹和验证结果。
同步技能：使用 skillclaw skills pull/push/sync 在本地与 OSS/S3 之间双向同步技能库，团队成员配置相同存储凭证即可自动共享进化后的技能。

框架技术原理

SkillClaw 的技术架构由三大核心组件构成闭环进化管道：

1. Client Proxy（客户端代理）—— 会话采集层

作为本地 API 代理运行，拦截 Agent 发往 /v1/chat/completions 或 /v1/messages 等端点的请求。
记录完整的因果链轨迹：用户 prompt → Agent 动作（含工具调用及参数）→ 中间反馈（工具结果、stderr、错误信息）→ 最终响应。
关键设计：保留完整中间过程而非仅最终回复，因为大多数技能级失败是过程性的（参数格式错误、漏验证步骤、工具调用顺序不对），这些只能从动作-反馈链中诊断。
会话按引用的技能分组存储：G(s) = {τ_i | s ∈ K_i}，未使用任何技能的会话归入 G(∅) 用于发现缺失的可复用流程。

2. Evolve Server（进化服务器）—— 技能进化层

定期扫描共享存储中的会话数据，提供两种进化引擎：
- Workflow 引擎：固定三阶段 LLM 管道——Summarize（总结会话）→ Aggregate（识别重复模式）→ Execute（进化或创建技能并写回），高效稳定，适合大多数场景。
- Agent 引擎：基于 OpenClaw 的自主智能体工作区，拥有完整的读/写/执行工具权限，直接分析模式并编辑技能文件，适合需要复杂推理的高价值技能。
Agentic Evolver 核心算法：给定技能 s 及其会话组 G(s)，Evolver 联合分析成功和失败执行，选择三种动作之一——Refine（修正已识别错误或提升鲁棒性）、Create（发现未被覆盖的重复子流程并新建技能）、Skip（证据不足时保持不变）。关键约束：成功会话定义不变量，失败会话定义修改目标，确保演化累积且不破坏已验证功能。

3. 夜间验证 + 技能同步—— 质量保障层

候选技能更新不直接部署，而是进入验证队列。系统在真实用户环境的空闲时段，用当天收集的交互数据作为测试集，让旧技能 s 和候选技能 s’ 在相同环境下并行执行（含完整工具链、多步交互、中间反馈）。
LLM 对比执行结果，基于整体任务成功率和执行稳定性判断：更优则 Accept 并合并入共享库，次日通过 SkillHub 同步给所有 Agent；否则 Reject，仅保存为候选记录。
这保证了单调部署性质：用户看到的技能池只会越来越好，不会退化。

创新点

首个多用户集体技能进化框架：从 Voyager（技能积累）→ Expel（经验提炼）→ MemEvolve（记忆技能演化）→ MetaClaw（单用户持续学习）→ SkillClaw（多用户集体演化），实现了 Agent 技能管理范式的代际跃迁。
Agentic Evolver 替代预定义规则：进化引擎本身是一个 LLM Agent，通过开放式推理自主决定技能修改策略，而非依赖手工规则，能处理各种未见过的失败模式。
“日夜交替”闭环架构：白天用户正常交互、系统静默采集；夜间进化引擎集中处理、验证、部署。进化计算与用户体验完全解耦，零延迟影响。
自然消融实验设计：多用户调用同一技能产生不同结果时，技能本身成为受控变量，直接暴露其行为边界，这是单用户系统无法实现的。
CI/CD 式技能部署：将软件工程的验证-部署流水线引入 Agent 技能管理，确保每次进化都经过实战检验，防止”越改越差”。
跨框架无锁定设计：不绑定特定 Agent 生态，原生支持 Hermes、Claude Code、OpenClaw、Codex、QwenPaw、IronClaw、PicoClaw 等，以及任意 OpenAI-compatible API。
从”模型中心”到”数据中心”的范式转移：展示了 Agent 能力增长可以不依赖更大模型，而是通过持续用户交互和集体学习实现——用的越多，进化信号越丰富，技能越强大。

评估标准

评估维度	基准/方式	SkillClaw 成绩	关键发现
整体性能	WildClawBench（60 个真实 Agent 任务，6 大领域）	Day 1 基线 30.4% → Day 6 72.5%，平均提升 +42.1%	持续单调递增，无退化
社交互动	同上（谈判、聊天分析等）	Day 2 即达稳态，从 54% 跳至 60% 并保持	存在高影响单一瓶颈，一旦突破即稳
创意合成	同上（视频笔记、海报生成等）	相对提升 +88.41%（从 11.57% 基数跃升）	瓶颈在环境配置而非内容生成
搜索检索	同上（学术搜索、冲突解决等）	22.73% → 30.00% → 34.55%，阶梯式上升	先解决输入可靠性，再提升检索规划
代码智能	同上（调试、益智解题等）	显著提升，执行正确性改善明显	过程性错误修复效果突出
安全对齐	同上（提示注入检测等）	Day 5 才开始明显见效	改进集中在执行鲁棒性（Git 认证回退等）
受控单轮进化	三个定制查询	基础提取 21.7%→69.6%（+47.8%）；保存报告 28.3%→100%（+71.7%）；截止日期解析 41.1%→48.0%（+6.9%）	过程性知识缺陷修复效果远超纯推理任务
技能质量	验证通过率	仅部分候选更新通过（如社交互动类 6 轮仅 1 个通过）	保守验证确保质量，但也限制了进化速度

应用领域

企业团队知识沉淀：技术团队将调试经验、代码规范、部署流程自动固化为可复用技能，新员工从第一天起享受前辈积累，大幅降低上手成本。
多 Agent 协作优化：前端 Agent 学会的 React 优化模式自动共享给后端 Agent，API 设计效率跨团队提升。
个人多设备经验同步：家里的 Hermes 学了 K8s 部署，公司的学了 ML 调参，接入 SkillClaw 后所有设备共享同一进化技能库。
自动化技能库运维：替代手动整理 .hermes/skills 目录，解决技能重复、过时、混乱问题，实现技能质量自治。
长尾场景自动覆盖：用户在真实任务中遇到的罕见错误（如 SAM3 视觉模型在纯 CPU 环境崩溃），进化后自动添加环境预检和 Monkey Patch 修复。
开放平台持续进化：AI 助手产品接入后，用户使用越多技能越强，形成”用的越多越聪明”的正向飞轮。