Step-Audio-EditX : 阶跃星辰开源的音频编辑大模型

AI工具2小时前发布 FuturX-Editor
4 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

Step-Audio-EditX是阶跃星辰团队开源的全球首个LLM级音频编辑大模型,专注于实现情感、说话风格、副语言(如呼吸、笑声)的细粒度控制。其核心目标是通过统一的分词-大模型-解码框架,支持零样本语音克隆、方言切换、多属性迭代编辑等功能,降低音频生成门槛,推动语音交互领域的个性化与智能化发展。

Step-Audio-EditX : 阶跃星辰开源的音频编辑大模型

功能特点

  • 情感与风格编辑:支持愤怒、开心、悲伤等数十种情感标签,可多次迭代增强或减弱强度;提供撒娇、耳语、老人、小孩等十余种说话风格,支持叠加与微调。
  • 副语言插入:精确插入呼吸、笑声、叹气等10类自然副语言标记,增强语音表现力。
  • 零样本语音克隆:无需目标人语音样本,仅通过文本标签即可克隆音色,并支持方言切换(如“[四川话]”“[粤语]”)。
  • 迭代控制:同一语音可反复编辑,属性解耦不串扰,效果逐级增强。
  • 开源轻量:提供8bit量化版,单卡8GB显存可运行,4×A800/H800显卡可获最佳音质。

优缺点

  • 优点
    • 细粒度控制:情感、风格、副语言三轴独立调节,满足多样化需求。
    • 零样本克隆:无需训练数据即可生成目标音色,降低使用成本。
    • 低资源占用:轻量化设计支持消费级硬件部署。
  • 缺点
    • 方言支持有限:非中文方言表现可能不稳定。
    • 复杂场景依赖:多属性叠加时需手动调整参数以避免冲突。

如何使用

  1. 在线体验:通过Hugging Face Space或魔搭社区直接访问交互式演示页面,输入文本并选择情感、风格、副语言标签生成语音。
  2. 本地部署
    • 在魔搭社区申请免费实例,克隆项目代码库。
    • 安装依赖库(如requirements.txt中列出的工具包)。
    • 运行预配置的Gradio应用(python app.py),通过网页界面输入文本并生成语音。
  3. 微调优化:参考官方文档,使用自定义数据集对模型进行微调,适配特定场景或声音风格。

框架技术原理

  • 双码本音频分词:采用并行16.7Hz/1024项语言码本与25Hz/4096项语义码本,按2:3时间交错切片,将语音统一转换为离散标记,保留情感与韵律信息。
  • 3B音频LLM:以文本预训练3B模型为基础,通过文本与音频标记拼接输入,仅输出音频标记,训练数据文本:音频=1:1,充分利用文本LLM生态。
  • 流匹配+BigVGANv2解码:音频LLM输出的双码本标记经DiT-流匹配模块生成梅尔频谱,再由BigVGANv2声码器还原波形,确保发音准确度与音色相似度。

创新点

  • 属性解耦与迭代控制:通过大间隔合成数据驱动SFT+PPO训练,实现情感、风格、副语言的独立调节与强度增减。
  • 统一框架设计:同一套分词-LLM-解码管线支持零样本TTS、情感/风格编辑、语速调节与降噪,降低系统复杂度。
  • 低资源友好:8bit量化版与流式推理优化,使模型在消费级硬件上高效运行。

评估标准

  • 情感表达自然度:通过主观评分(如CMOS)评估合成语音的情感真实性。
  • 属性解耦精度:测量多属性叠加时各维度的独立性(如调整情感不影响风格)。
  • 推理效率:以延迟(毫秒级)和资源占用(显存、CPU使用率)为核心指标。
  • 方言与音色克隆准确度:通过客观指标(如MFCC距离)与主观听感测试验证。

应用领域

  • 有声内容创作:为有声书、播客、新闻朗读一键叠加情绪或风格,提升沉浸感。
  • 视频与广告配音:零样本克隆角色音色,添加撒娇、夸张等风格,实现低成本多角色配音。
  • 游戏与虚拟偶像:实时插入笑声、呼吸等副语言,打造鲜活NPC或虚拟主播。
  • 智能客服与语音助手:在原有TTS基础上编辑情感(如将“平淡答复”转为“热情安抚”),改善用户体验。
  • 教育与语言学习:生成适龄读音(如老人/小孩风格)或方言版本,辅助语言教学。

项目地址

© 版权声明

相关文章

暂无评论

暂无评论...