Step-Audio-EditX ：阶跃星辰开源的音频编辑大模型

AI工具5个月前发布 FuturX-Editor

510 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

Step-Audio-EditX是阶跃星辰团队开源的全球首个LLM级音频编辑大模型，专注于实现情感、说话风格、副语言（如呼吸、笑声）的细粒度控制。其核心目标是通过统一的分词-大模型-解码框架，支持零样本语音克隆、方言切换、多属性迭代编辑等功能，降低音频生成门槛，推动语音交互领域的个性化与智能化发展。

Step-Audio-EditX ：阶跃星辰开源的音频编辑大模型

功能特点

情感与风格编辑：支持愤怒、开心、悲伤等数十种情感标签，可多次迭代增强或减弱强度；提供撒娇、耳语、老人、小孩等十余种说话风格，支持叠加与微调。
副语言插入：精确插入呼吸、笑声、叹气等10类自然副语言标记，增强语音表现力。
零样本语音克隆：无需目标人语音样本，仅通过文本标签即可克隆音色，并支持方言切换（如“[四川话]”“[粤语]”）。
迭代控制：同一语音可反复编辑，属性解耦不串扰，效果逐级增强。
开源轻量：提供8bit量化版，单卡8GB显存可运行，4×A800/H800显卡可获最佳音质。

优缺点

优点：
- 细粒度控制：情感、风格、副语言三轴独立调节，满足多样化需求。
- 零样本克隆：无需训练数据即可生成目标音色，降低使用成本。
- 低资源占用：轻量化设计支持消费级硬件部署。
缺点：
- 方言支持有限：非中文方言表现可能不稳定。
- 复杂场景依赖：多属性叠加时需手动调整参数以避免冲突。

如何使用

在线体验：通过Hugging Face Space或魔搭社区直接访问交互式演示页面，输入文本并选择情感、风格、副语言标签生成语音。
本地部署：
- 在魔搭社区申请免费实例，克隆项目代码库。
- 安装依赖库（如requirements.txt中列出的工具包）。
- 运行预配置的Gradio应用（python app.py），通过网页界面输入文本并生成语音。
微调优化：参考官方文档，使用自定义数据集对模型进行微调，适配特定场景或声音风格。

框架技术原理

双码本音频分词：采用并行16.7Hz/1024项语言码本与25Hz/4096项语义码本，按2:3时间交错切片，将语音统一转换为离散标记，保留情感与韵律信息。
3B音频LLM：以文本预训练3B模型为基础，通过文本与音频标记拼接输入，仅输出音频标记，训练数据文本:音频=1:1，充分利用文本LLM生态。
流匹配+BigVGANv2解码：音频LLM输出的双码本标记经DiT-流匹配模块生成梅尔频谱，再由BigVGANv2声码器还原波形，确保发音准确度与音色相似度。

创新点

属性解耦与迭代控制：通过大间隔合成数据驱动SFT+PPO训练，实现情感、风格、副语言的独立调节与强度增减。
统一框架设计：同一套分词-LLM-解码管线支持零样本TTS、情感/风格编辑、语速调节与降噪，降低系统复杂度。
低资源友好：8bit量化版与流式推理优化，使模型在消费级硬件上高效运行。

评估标准

情感表达自然度：通过主观评分（如CMOS）评估合成语音的情感真实性。
属性解耦精度：测量多属性叠加时各维度的独立性（如调整情感不影响风格）。
推理效率：以延迟（毫秒级）和资源占用（显存、CPU使用率）为核心指标。
方言与音色克隆准确度：通过客观指标（如MFCC距离）与主观听感测试验证。

应用领域

有声内容创作：为有声书、播客、新闻朗读一键叠加情绪或风格，提升沉浸感。
视频与广告配音：零样本克隆角色音色，添加撒娇、夸张等风格，实现低成本多角色配音。
游戏与虚拟偶像：实时插入笑声、呼吸等副语言，打造鲜活NPC或虚拟主播。
智能客服与语音助手：在原有TTS基础上编辑情感（如将“平淡答复”转为“热情安抚”），改善用户体验。
教育与语言学习：生成适龄读音（如老人/小孩风格）或方言版本，辅助语言教学。

项目地址

GitHub仓库：https://github.com/stepfun-ai/Step-Audio-EditX
Hugging Face模型库：https://huggingface.co/stepfun-ai/Step-Audio-EditX
项目官网：https://stepaudiollm.github.io/step-audio-editx/

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

TripoSR —— Stability AI 联合 VAST 开源的 3D 生成模型

FuturX-Editor

665 0

Hunyuan-Large —— 腾讯推出的大型混合专家（MoE）模型

FuturX-Editor

460 0

AI视频生成工具怎么选？2025年10大热门工具深度对比

FuturX-Editor

6,145 1

EveryoneNobel —— AI图像生成工具，生成个性化诺贝尔奖风格图像

FuturX-Editor

1,624 0

Composer ： Cursor推出的自研编码模型

FuturX-Editor

315 0

LTX-2.3 ： Lightricks 开源的最新一代视频生成模型

FuturX-Editor

783 1

暂无评论

暂无评论...

AI全网资源导航每日收集国内外热点AI/人工智能/工具/模型/框架以及最新的AI学习资料/课程等，在这个全新的AI时代，助力每一个人，赋能每一个具体业务场景，与所有人一起努力向前！

友链申请免责声明广告合作关于我们

Copyright © 2026 AI智库导航-aiguide.cc 沪ICP备2022030655号