FLM-Audio ：智源研究院开源的全双工音频对话模型

205 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

FLM-Audio是由北京智源人工智能研究院联合Spin Matrix与新加坡南洋理工大学共同发布的原生全双工音频对话大模型。该模型支持中文和英文，采用原生全双工架构，能够在每个时间步合并听觉、说话和独白通道，实现“边听边说”的交互模式，有效解决了传统时分复用方案的高延迟问题。FLM-Audio通过自然独白与双重训练范式，使模型在对话中更接近人类的自然交流方式，显著提升了语音交互的自然度和流畅性。

功能特点

全双工语音交互：实现“边听边说”，用户可随时打断模型，模型能即时暂停输出并理解新问题后回应，交互自然流畅，延迟低。
支持多语言：模型支持中文和英文两种语言，能够满足不同语言用户的对话需求。
自然语音建模：采用“自然独白”方式模拟人类说话节奏，通过“双重训练”强化语言与声学语义对齐，兼顾低延迟与语言建模性能。
低数据高效训练：仅用约100万小时音频数据训练出70亿参数模型，在嘈杂环境、频繁打断场景下仍保持高鲁棒性和自然度。
强鲁棒性：对噪声和用户打断具有较强的鲁棒性，能迅速停顿当前输出、准确理解新问题并即时作答，保证对话的流畅性和准确性。

优缺点

优点：

响应敏捷自然：采用原生全双工架构，实现低延迟交互，用户体验接近真人对话。
多语言支持：满足不同语言用户的对话需求，具有广泛的应用前景。
高效训练：利用少量音频数据训练出高参数量模型，降低训练成本。

缺点：

音色克隆未专门优化：在文本转语音任务中，SIM分数较低，音色克隆能力有待提升。
对硬件要求较高：由于模型参数量较大，对硬件资源有一定要求。

如何使用

访问项目平台：通过GitHub仓库或Hugging Face模型页获取FLM-Audio模型。
选择使用方式：根据需求选择本地部署、在线推理或集成到现有系统中。
输入音频：通过麦克风或音频文件输入问题，模型将实时生成回答。
获取回答：模型将边听边说，即时回应问题，用户可随时打断并调整对话方向。

框架技术原理

FLM-Audio采用原生全双工架构，将听觉、说话和独白通道在每个时间步合并处理，实现“边听边想边说”。模型通过自然独白训练，采用连续句段与停顿组成的“自然独白”代替逐词对齐，更接近人类真实说话方式。同时，通过双重训练策略，将独白交替放在音频首尾进行训练，强化语言与声学语义的对齐，提高模型对语音内容的理解和生成能力。