Skywork-SWE-32B : 昆仑万维开源的自主代码智能体基座模型
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
Skywork-SWE-32B是昆仑万维于2025年6月20日开源的自主代码智能体基座模型,专注于软件工程(SWE)任务。该模型在32B参数规模下实现了业界领先的仓库级代码修复能力,通过构建超过1万个可验证的GitHub仓库任务实例,打造出当前最大规模的可验证GitHub仓库级代码修复数据集,并系统性验证了大模型在软件工程任务上的数据缩放定律(Scaling Law)。Skywork-SWE-32B在SWE-bench Verified基准上取得38.0% pass@1准确率,刷新了同等规模模型的最佳成绩,进一步引入测试时扩展技术后,准确率提升至47.0%,显著缩小了与闭源模型之间的性能差距。

功能特点
- 仓库级代码修复:
- 在开源32B模型规模下实现了业界最强的仓库级代码修复能力,能够精准定位并修复GitHub仓库中的实际代码问题。
- 高质量数据集:
- 构建了超过1万个可验证的GitHub仓库任务实例,涵盖主流开源项目及中小型代码库,确保数据的多样性和真实性。
- 测试时扩展技术:
- 引入测试时扩展技术(Test-Time Scaling, TTS),将模型在SWE-bench Verified基准上的pass@1准确率提升至47.0%,刷新了32B参数规模以下开源模型的SOTA。
- 自主代码智能体:
- 基于开源OpenHands框架,赋予AI更大自主权,由其决定工具使用与任务执行方式,减少人工约束,提升智能发挥。
优缺点
优点:
- 性能领先:在SWE-bench Verified基准上取得优异成绩,超越了同等规模开源模型,甚至接近或超越多数主流闭源大模型。
- 数据质量高:构建了大规模、高质量的可验证GitHub仓库级代码修复数据集,为模型训练提供了坚实基础。
- 自主性强:基于开源OpenHands框架,赋予AI更大自主权,提升模型在复杂工程场景中的表现。
缺点:
- 参数规模限制:尽管在32B参数规模下实现了优异性能,但与参数量更大的闭源模型相比,仍存在一定差距。
- 多语言支持有限:目前主要支持英文代码仓库,多语言支持能力有待进一步拓展。
如何使用
- 访问项目地址:
- 访问Hugging Face模型库:https://huggingface.co/Skywork/Skywork-SWE-32B,下载模型权重及相关资源。
- 环境准备:
- 确保安装了Python、PyTorch等必要的依赖库,并配置好GPU环境。
- 模型加载与推理:
- 使用Hugging Face的Transformers库加载模型权重,编写推理代码,输入代码问题描述或GitHub仓库链接,获取模型生成的修复方案。
- 集成到开发工具:
- 将模型集成到内部开发工具中,自动化处理代码问题,减少人工干预,提高开发效率和代码质量。
框架技术原理
- 数据收集与验证流程:
- 通过三阶段自动化流程构建大规模、高质量的SWE任务训练数据集,包括数据采集与筛选、执行验证机制、智能体轨迹生成等步骤。
- 模型微调:
- 基于Skywork-SWE数据集的高质量智能体轨迹,使用开源OpenHands代码Agent框架对模型进行微调,提升模型在代码修复任务上的性能。
- 测试时扩展技术:
- 在测试阶段引入扩展技术,通过增加计算资源或调整模型参数,进一步提升模型的准确率和稳定性。
创新点
- 构建最大规模可验证代码修复数据集:
- 打造了超过1万个可验证的GitHub仓库任务实例,为模型训练提供了丰富、多样且贴近实际的软件工程任务样本。
- 验证数据缩放定律:
- 系统性验证了大模型在软件工程任务上的数据缩放定律(Scaling Law),表明随着训练数据规模的持续扩展,模型性能持续提升。
- 赋予AI更大自主权:
- 基于开源OpenHands框架,减少人工约束,提升模型在复杂工程场景中的自主决策和问题解决能力。
评估标准
- 准确率:
- 使用SWE-bench Verified基准评估模型在代码修复任务上的pass@1准确率,衡量模型生成正确修复方案的能力。
- 性能对比:
- 与同等规模开源模型及主流闭源大模型进行性能对比,评估模型在代码修复任务上的优势和不足。
- 数据规模效应:
- 验证数据规模扩展对模型性能的影响,评估数据缩放定律在软件工程任务上的适用性。
应用领域
- 代码修复与优化:
- 自动化定位并修复GitHub仓库中的实际代码问题,提出优化建议,提高代码质量和可维护性。
- 单元测试自动化:
- 构建专用的运行时环境和单元测试验证机制,自动化执行测试用例,验证生成的修复代码是否有效。
- 教学辅助:
- 在软件工程和编程课程中作为教学工具,帮助学生理解代码问题的解决过程,提高编程能力。
- 研究支持:
- 为研究人员提供强大的实验平台,用于探索大语言模型在软件工程任务中的应用,验证数据缩放定律等理论。
项目地址
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...