Skywork-SWE-32B : 昆仑万维开源的自主代码智能体基座模型

538 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

Skywork-SWE-32B是昆仑万维于2025年6月20日开源的自主代码智能体基座模型，专注于软件工程（SWE）任务。该模型在32B参数规模下实现了业界领先的仓库级代码修复能力，通过构建超过1万个可验证的GitHub仓库任务实例，打造出当前最大规模的可验证GitHub仓库级代码修复数据集，并系统性验证了大模型在软件工程任务上的数据缩放定律（Scaling Law）。Skywork-SWE-32B在SWE-bench Verified基准上取得38.0% pass@1准确率，刷新了同等规模模型的最佳成绩，进一步引入测试时扩展技术后，准确率提升至47.0%，显著缩小了与闭源模型之间的性能差距。

功能特点

仓库级代码修复：
- 在开源32B模型规模下实现了业界最强的仓库级代码修复能力，能够精准定位并修复GitHub仓库中的实际代码问题。
高质量数据集：
- 构建了超过1万个可验证的GitHub仓库任务实例，涵盖主流开源项目及中小型代码库，确保数据的多样性和真实性。
测试时扩展技术：
- 引入测试时扩展技术（Test-Time Scaling, TTS），将模型在SWE-bench Verified基准上的pass@1准确率提升至47.0%，刷新了32B参数规模以下开源模型的SOTA。
自主代码智能体：
- 基于开源OpenHands框架，赋予AI更大自主权，由其决定工具使用与任务执行方式，减少人工约束，提升智能发挥。

优缺点

优点：

性能领先：在SWE-bench Verified基准上取得优异成绩，超越了同等规模开源模型，甚至接近或超越多数主流闭源大模型。
数据质量高：构建了大规模、高质量的可验证GitHub仓库级代码修复数据集，为模型训练提供了坚实基础。
自主性强：基于开源OpenHands框架，赋予AI更大自主权，提升模型在复杂工程场景中的表现。

缺点：

参数规模限制：尽管在32B参数规模下实现了优异性能，但与参数量更大的闭源模型相比，仍存在一定差距。
多语言支持有限：目前主要支持英文代码仓库，多语言支持能力有待进一步拓展。

如何使用

访问项目地址：
- 访问Hugging Face模型库：https://huggingface.co/Skywork/Skywork-SWE-32B，下载模型权重及相关资源。
环境准备：
- 确保安装了Python、PyTorch等必要的依赖库，并配置好GPU环境。
模型加载与推理：
- 使用Hugging Face的Transformers库加载模型权重，编写推理代码，输入代码问题描述或GitHub仓库链接，获取模型生成的修复方案。
集成到开发工具：
- 将模型集成到内部开发工具中，自动化处理代码问题，减少人工干预，提高开发效率和代码质量。

框架技术原理

数据收集与验证流程：
- 通过三阶段自动化流程构建大规模、高质量的SWE任务训练数据集，包括数据采集与筛选、执行验证机制、智能体轨迹生成等步骤。
模型微调：
- 基于Skywork-SWE数据集的高质量智能体轨迹，使用开源OpenHands代码Agent框架对模型进行微调，提升模型在代码修复任务上的性能。
测试时扩展技术：
- 在测试阶段引入扩展技术，通过增加计算资源或调整模型参数，进一步提升模型的准确率和稳定性。