Ming-omni-tts : 蚂蚁集团开源的统一音频生成模型

AI工具9小时前发布 FuturX-Editor
15 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

Ming-omni-tts是蚂蚁集团开源的统一音频生成模型,采用自回归架构实现语音、音乐和音效的联合生成。该模型支持通过自然语言指令对语速、音调、音量、情感和方言进行细粒度控制,旨在提供高质量、低延迟的音频生成体验,适用于有声书、播客、多语言内容创作、游戏音效设计、教育培训、智能客服与助手、广告与营销配音等场景。Ming-omni-tts : 蚂蚁集团开源的统一音频生成模型

功能特点

  1. 统一多模态音频生成:业界首个自回归模型,可在单通道中联合生成语音、环境音和音乐,实现“身临其境”的听觉体验。
  2. 细粒度语音控制:支持通过简单指令精确控制语速、音调、音量、情感和方言,粤语方言控制准确率高达93%,情感控制准确率达46.7%。
  3. 智能声音设计:内置100+优质音色,支持通过自然语言描述进行零样本声音设计。
  4. 高效推理优化:采用“Patch-by-Patch”压缩策略,将LLM推理帧率降至3.1Hz,显著降低延迟。
  5. 专业文本归一化:准确解析和朗读复杂数学表达式、化学方程式等专业格式,内部测试集CER仅1.97%。
  6. 多语言支持:支持中文、英文等多种语言的语音合成与跨语言迁移。
  7. 零样本TTS:仅需3-10秒参考音频即可克隆任意音色,在Seed-tts-eval上WER低至0.83%。

优缺点

优点

  1. 音质细腻:采用Diffusion Transformer (DiT) Head架构,增强音频生成质量,提升音质细腻度和自然度。
  2. 控制精准:支持细粒度语音控制,满足多样化音频生成需求。
  3. 延迟低:高效推理优化,降低计算延迟和推理成本。
  4. 多语言支持:支持多种语言,满足全球化内容生产需求。

缺点

  1. 训练复杂度高:模型架构复杂,训练过程需要大量计算资源和时间。
  2. 长序列推理待提升:在处理长音频序列时,推理效率有待进一步提升。

如何使用

  1. 访问平台:通过蚂蚁集团提供的在线平台或Docker镜像访问Ming-omni-tts。
  2. 输入指令:在平台上输入自然语言指令,描述所需的音频内容,如语速、音调、音量、情感和方言等。
  3. 生成音频:点击生成按钮,模型将根据指令生成对应的音频文件。
  4. 下载使用:下载生成的音频文件,用于有声书、播客、广告配音等场景。

框架技术原理

  1. 统一连续音频Tokenizer:基于VAE的连续Tokenizer,以12.5Hz帧率将语音、音乐和通用音频整合到统一潜空间,支持多模态音频的联合建模。
  2. Diffusion Transformer (DiT) Head:采用扩散头架构增强音频生成质量,提升音质细腻度和自然度。
  3. 自回归生成架构:业界首个在单通道中联合生成语音、音乐和音效的自回归模型,实现统一音频生成。
  4. “Patch-by-Patch”压缩机制:通过压缩策略将LLM推理帧率从原始频率降至3.1Hz,大幅降低计算延迟和推理成本。

创新点

  1. 统一多模态音频生成:首次实现语音、音乐和音效的联合生成,打破传统音频生成模型的模态限制。
  2. 细粒度语音控制:支持通过自然语言指令对语速、音调、音量、情感和方言进行细粒度控制,提升音频生成的灵活性和个性化。
  3. 高效推理优化:采用“Patch-by-Patch”压缩策略,显著降低计算延迟和推理成本,提升模型实用性。

评估标准

  1. 音质评估:通过主观听感评估和客观指标(如WER、CER)评估生成音频的音质细腻度和自然度。
  2. 控制准确性评估:评估模型对语速、音调、音量、情感和方言等指令的响应准确性和执行效果。
  3. 延迟评估:评估模型在生成音频时的计算延迟和推理成本,确保满足实时应用需求。
  4. 多语言支持评估:评估模型在不同语言下的语音合成效果和跨语言迁移能力。

应用领域

  1. 有声书与播客制作:支持长文本语音合成,适合有声读物、新闻播报和播客内容生成。
  2. 多语言内容创作:支持中文、英文等多语言语音合成与跨语言音色迁移,满足全球化内容生产需求。
  3. 游戏音效设计:可联合生成语音、环境音和音乐,为游戏场景提供沉浸式音频体验。
  4. 教育培训领域:准确朗读复杂数学表达式、化学方程式等专业内容,适用于在线教育课件和学术讲解。
  5. 智能客服与助手:内置100+优质音色,支持零样本声音克隆,可快速定制品牌专属语音助手。
  6. 广告与营销配音:通过情感控制和方言支持,生成富有感染力的广告配音和本地化营销内容。

项目地址

GitHub仓库:https://github.com/inclusionAI/Ming-omni-tts
Hugging Face模型库:https://modelscope.cn/models/inclusionAI/Ming-omni-tts-16.8B-A3B

© 版权声明

相关文章

暂无评论

暂无评论...