SoulX-Podcast ： Soul推出的多说话人语音合成模型

AI工具5个月前发布 FuturX-Editor

314 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

SoulX-Podcast 是由 Soul App AI 团队（Soul AI Lab）自主研发并开源的多说话人语音合成模型，专为多人、多轮对话场景设计。该模型支持中、英、川、粤等多语种及方言，能够生成自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话，适用于播客、有声读物、教育内容、娱乐游戏及企业培训等领域。 SoulX-Podcast ： Soul推出的多说话人语音合成模型

功能特点

多轮对话流畅自然：支持超过60分钟（甚至90分钟）的连贯对话生成，保持音色和情感连续性。
多方言支持：除中英文外，还支持四川话、河南话、粤语等主流方言，并实现跨方言音色克隆。
副语言控制：支持笑声、清嗓等副语言元素的可控生成，增强语音真实感。
零样本语音克隆：无需目标说话人语音样本，即可生成高质量个性化语音。
多说话人建模：通过说话人嵌入技术，自然切换不同说话人语音。

优缺点

优点：

支持超长对话生成，音色和情感稳定。
方言覆盖广泛，跨方言克隆能力突出。
副语言控制增强语音表现力。
零样本克隆降低使用门槛。

缺点：

在极端方言或复杂场景下，语音自然度可能略有下降。
对硬件资源有一定要求，尤其在生成超长对话时。

如何使用

访问项目地址：前往 GitHub 仓库（https://github.com/Soul-AILab/SoulX-Podcast）或 HuggingFace 模型库，获取模型代码和预训练权重。
准备输入：提供对话文本（支持多轮、多说话人）及参考语音（用于零样本克隆）。
运行推理：使用提供的脚本或界面，加载模型并生成语音。
调整参数：根据需要调整副语言控制、方言类型等参数。
导出结果：保存生成的语音文件，用于播客、有声读物等场景。

框架技术原理

SoulX-Podcast 采用 LLM + Flow Matching 的语音生成范式：

LLM 部分：以 Qwen3-1.7B 为基座模型，建模语义 token，继承其语言理解能力。
Flow Matching 部分：进一步建模声学特征，确保语音生成的精准度。
多说话人建模：引入说话人嵌入技术，区分不同说话人语音特征。
跨方言生成：采用方言引导提示（DGP）方法，实现方言零样本生成。

创新点

跨方言音色克隆：支持通过普通话提示生成方言语音。
超长对话稳定性：优化注意力机制和解码器结构，避免音色漂移和情感不连贯。
副语言控制：通过文本标记融入非语言信息，增强语音真实感。
零样本克隆：无需目标语音样本，即可生成个性化语音。

评估标准

语音可懂度：生成语音的清晰度和准确性。
音色相似度：零样本克隆下，生成语音与参考语音的相似程度。
自然度：语音的流畅性、韵律和副语言表现。
稳定性：超长对话中的音色和情感连续性。
方言支持：对方言的覆盖范围和生成质量。

应用领域

播客制作：生成科技、文化、娱乐等各类播客内容。
有声读物：生成多角色对话，使内容更生动有趣。
教育内容：增强语言学习、历史故事讲解的互动性。
娱乐和游戏：为游戏、动画和视频制作自然的多角色语音。
企业培训：生成模拟对话，帮助员工进行沟通技巧和客户服务培训。

项目地址

GitHub 仓库：https://github.com/Soul-AILab/SoulX-Podcast
HuggingFace 模型库：https://huggingface.co/collections/Soul-AILab/soulx-podcast
项目官网：https://soul-ailab.github.io/soulx-podcast/
技术报告：https://arxiv.org/pdf/2510.23541

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

II-Agent ： Intelligent Internet开源的通用AI Agent框架

FuturX-Editor

634 0

Nano Bananary : 开源AI图像编辑工具，基于Gemini模型

FuturX-Editor

363 0

Step-Audio-R1.1 ：阶跃星辰开源的原生语音推理模型

FuturX-Editor

279 0

Video-T1 —— 清华联合腾讯推出的视频生成技术

FuturX-Editor

566 0

Custom-SVG：Adobe联合香港城市大学推出的SVG定制生成框架

FuturX-Editor

641 0

GPT-4o-Transcribe —— OpenAI 推出的语音转文本模型

FuturX-Editor

781 0

暂无评论

暂无评论...

AI全网资源导航每日收集国内外热点AI/人工智能/工具/模型/框架以及最新的AI学习资料/课程等，在这个全新的AI时代，助力每一个人，赋能每一个具体业务场景，与所有人一起努力向前！

友链申请免责声明广告合作关于我们

Copyright © 2026 AI智库导航-aiguide.cc 沪ICP备2022030655号