MaskGCT—— 趣丸科技联合香港中文大学推出的语音合成大模型

AI工具5个月前发布 FuturX-Editor
257 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

MaskGCT主要介绍

MaskGCT是由趣丸科技与香港中文大学(深圳)联合推出的语音合成大模型。该模型在2024年10月24日正式在Amphion系统中开源,面向全球用户开放使用。MaskGCT采用掩码生成模型与语音表征解耦编码的创新范式,在声音克隆、跨语种合成及语音控制等领域展现出卓越性能。

MaskGCT—— 趣丸科技联合香港中文大学推出的语音合成大模型 MaskGCT—— 趣丸科技联合香港中文大学推出的语音合成大模型

MaskGCT功能特点

  1. 秒级超逼真的声音克隆:仅需3秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色,且能完整复刻语调、风格和情感。
  2. 更精细可控的语音生成:可灵活调整生成语音的长度、语速和情绪,支持通过编辑文本编辑语音,并保持韵律、音色等方面的高度一致。
  3. 高质量多语种语音数据集:训练于香港中文大学(深圳)和趣丸科技等机构联合推出的10万小时数据集Emilia,是全球最大且最为多样的高质量多语种语音数据集之一,精通中英日韩法德6种语言的跨语种合成。

MaskGCT优缺点

优点

  • 在语音质量、相似度和可理解性方面优于当前最先进的TTS模型。
  • 在模型规模和训练数据量增加时表现更佳,同时能够控制生成语音的总时长。
  • 在声音克隆、跨语种合成及语音控制等领域展现出卓越性能。

缺点

  • 目前尚未发现明显的缺点,但任何技术模型都可能存在局限性,具体使用效果可能受多种因素影响。

如何使用MaskGCT

用户可以通过Amphion系统访问和使用MaskGCT。由于MaskGCT是一个开源模型,开发者也可以下载其源代码并根据自己的需求进行定制和开发。趣丸科技还开发了多语种速译智能视听平台“趣丸千音”,该平台基于MaskGCT技术,可实现一键上传视频即可快速翻译成多语种版本,并包含字幕修复与翻译、语音翻译、唇音同步等功能。

MaskGCT训练方法

MaskGCT采用非自回归掩码生成Transformer进行训练,无需文本与语音的对齐监督和音素级持续时间预测。其技术突破性在于采用掩码生成模型与语音表征解耦编码的创新范式。通过对10万小时的自然语音进行实验和优化,MaskGCT在质量、相似度和可理解性方面达到了卓越水平。

MaskGCT框架结构

MaskGCT是一个两阶段模型。在第一阶段,模型使用文本预测从语音自监督学习(SSL)模型中提取的语义标记;在第二阶段,模型基于这些语义标记预测声学标记。MaskGCT遵循掩码预测学习范式,在训练过程中学习根据给定的条件和提示预测掩码的语义或声学标记。在推理过程中,模型以并行方式生成指定长度的标记。

MaskGCT—— 趣丸科技联合香港中文大学推出的语音合成大模型 MaskGCT—— 趣丸科技联合香港中文大学推出的语音合成大模型

MaskGCT创新点

MaskGCT的创新点主要体现在以下几个方面:

  • 掩码生成模型与语音表征解耦编码:这种创新范式使得MaskGCT在生成语音方面无需依赖文本与语音之间的对齐监督或音素级的持续时间预测,大幅简化了模型的训练过程。
  • 两阶段模型设计:通过分阶段处理语义标记和声学标记,提高了模型的生成效率和语音质量。
  • 高质量多语种语音数据集:使用全球最大的高质量多语种语音数据集Emilia进行训练,使得MaskGCT在跨语种合成方面展现出强大性能。

MaskGCT评估标准

对于MaskGCT的评估标准,可以从以下几个方面进行考虑:

  • 语音质量:评估生成语音的自然度、清晰度和流畅性。
  • 语音相似度:评估生成语音与原始语音或目标语音的相似程度。
  • 可理解性:评估生成语音是否能够被准确理解和识别。
  • 生成效率:评估模型在生成语音时的处理速度和资源消耗情况。

MaskGCT影响

MaskGCT的推出对语音合成领域产生了深远影响。它不仅提高了语音合成的技术水平和应用效果,还为短剧出海、数字人、智能助手、有声读物及辅助教育等多个领域提供了强有力的技术支持。随着全球文化交流的加深和AI技术的不断进步,MaskGCT有望在未来发挥更大的作用。

MaskGCT项目地址

论文链接:https://arxiv.org/abs/2409.00750

交互Demo:https://huggingface.co/spaces/amphion/maskgct

样例展示:https://maskgct.github.io/

Amphion地址:https://github.com/open-mmlab/Amphion

模型下载:https://huggingface.co/amphion/maskgct

项目地址:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct

公测版地址(趣丸千音):voice.funnycp.com

© 版权声明

相关文章

暂无评论

暂无评论...