Skywork-SWE-32B : 昆仑万维开源的自主代码智能体基座模型

AI工具7小时前发布 FuturX-Editor
12 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

Skywork-SWE-32B是昆仑万维于2025年6月20日开源的自主代码智能体基座模型,专注于软件工程(SWE)任务。该模型在32B参数规模下实现了业界领先的仓库级代码修复能力,通过构建超过1万个可验证的GitHub仓库任务实例,打造出当前最大规模的可验证GitHub仓库级代码修复数据集,并系统性验证了大模型在软件工程任务上的数据缩放定律(Scaling Law)。Skywork-SWE-32B在SWE-bench Verified基准上取得38.0% pass@1准确率,刷新了同等规模模型的最佳成绩,进一步引入测试时扩展技术后,准确率提升至47.0%,显著缩小了与闭源模型之间的性能差距。

Skywork-SWE-32B : 昆仑万维开源的自主代码智能体基座模型

功能特点

  1. 仓库级代码修复
    • 在开源32B模型规模下实现了业界最强的仓库级代码修复能力,能够精准定位并修复GitHub仓库中的实际代码问题。
  2. 高质量数据集
    • 构建了超过1万个可验证的GitHub仓库任务实例,涵盖主流开源项目及中小型代码库,确保数据的多样性和真实性。
  3. 测试时扩展技术
    • 引入测试时扩展技术(Test-Time Scaling, TTS),将模型在SWE-bench Verified基准上的pass@1准确率提升至47.0%,刷新了32B参数规模以下开源模型的SOTA。
  4. 自主代码智能体
    • 基于开源OpenHands框架,赋予AI更大自主权,由其决定工具使用与任务执行方式,减少人工约束,提升智能发挥。

优缺点

优点

  1. 性能领先:在SWE-bench Verified基准上取得优异成绩,超越了同等规模开源模型,甚至接近或超越多数主流闭源大模型。
  2. 数据质量高:构建了大规模、高质量的可验证GitHub仓库级代码修复数据集,为模型训练提供了坚实基础。
  3. 自主性强:基于开源OpenHands框架,赋予AI更大自主权,提升模型在复杂工程场景中的表现。

缺点

  1. 参数规模限制:尽管在32B参数规模下实现了优异性能,但与参数量更大的闭源模型相比,仍存在一定差距。
  2. 多语言支持有限:目前主要支持英文代码仓库,多语言支持能力有待进一步拓展。

如何使用

  1. 访问项目地址
  2. 环境准备
    • 确保安装了Python、PyTorch等必要的依赖库,并配置好GPU环境。
  3. 模型加载与推理
    • 使用Hugging Face的Transformers库加载模型权重,编写推理代码,输入代码问题描述或GitHub仓库链接,获取模型生成的修复方案。
  4. 集成到开发工具
    • 将模型集成到内部开发工具中,自动化处理代码问题,减少人工干预,提高开发效率和代码质量。

框架技术原理

  1. 数据收集与验证流程
    • 通过三阶段自动化流程构建大规模、高质量的SWE任务训练数据集,包括数据采集与筛选、执行验证机制、智能体轨迹生成等步骤。
  2. 模型微调
    • 基于Skywork-SWE数据集的高质量智能体轨迹,使用开源OpenHands代码Agent框架对模型进行微调,提升模型在代码修复任务上的性能。
  3. 测试时扩展技术
    • 在测试阶段引入扩展技术,通过增加计算资源或调整模型参数,进一步提升模型的准确率和稳定性。

创新点

  1. 构建最大规模可验证代码修复数据集
    • 打造了超过1万个可验证的GitHub仓库任务实例,为模型训练提供了丰富、多样且贴近实际的软件工程任务样本。
  2. 验证数据缩放定律
    • 系统性验证了大模型在软件工程任务上的数据缩放定律(Scaling Law),表明随着训练数据规模的持续扩展,模型性能持续提升。
  3. 赋予AI更大自主权
    • 基于开源OpenHands框架,减少人工约束,提升模型在复杂工程场景中的自主决策和问题解决能力。

评估标准

  1. 准确率
    • 使用SWE-bench Verified基准评估模型在代码修复任务上的pass@1准确率,衡量模型生成正确修复方案的能力。
  2. 性能对比
    • 与同等规模开源模型及主流闭源大模型进行性能对比,评估模型在代码修复任务上的优势和不足。
  3. 数据规模效应
    • 验证数据规模扩展对模型性能的影响,评估数据缩放定律在软件工程任务上的适用性。

应用领域

  1. 代码修复与优化
    • 自动化定位并修复GitHub仓库中的实际代码问题,提出优化建议,提高代码质量和可维护性。
  2. 单元测试自动化
    • 构建专用的运行时环境和单元测试验证机制,自动化执行测试用例,验证生成的修复代码是否有效。
  3. 教学辅助
    • 在软件工程和编程课程中作为教学工具,帮助学生理解代码问题的解决过程,提高编程能力。
  4. 研究支持
    • 为研究人员提供强大的实验平台,用于探索大语言模型在软件工程任务中的应用,验证数据缩放定律等理论。

项目地址

© 版权声明

相关文章

暂无评论

暂无评论...