FLM-Audio : 智源研究院开源的全双工音频对话模型

AI工具2小时前发布 FuturX-Editor
8 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

FLM-Audio是由北京智源人工智能研究院联合Spin Matrix与新加坡南洋理工大学共同发布的原生全双工音频对话大模型。该模型支持中文和英文,采用原生全双工架构,能够在每个时间步合并听觉、说话和独白通道,实现“边听边说”的交互模式,有效解决了传统时分复用方案的高延迟问题。FLM-Audio通过自然独白与双重训练范式,使模型在对话中更接近人类的自然交流方式,显著提升了语音交互的自然度和流畅性。

FLM-Audio : 智源研究院开源的全双工音频对话模型

功能特点

  1. 全双工语音交互:实现“边听边说”,用户可随时打断模型,模型能即时暂停输出并理解新问题后回应,交互自然流畅,延迟低。
  2. 支持多语言:模型支持中文和英文两种语言,能够满足不同语言用户的对话需求。
  3. 自然语音建模:采用“自然独白”方式模拟人类说话节奏,通过“双重训练”强化语言与声学语义对齐,兼顾低延迟与语言建模性能。
  4. 低数据高效训练:仅用约100万小时音频数据训练出70亿参数模型,在嘈杂环境、频繁打断场景下仍保持高鲁棒性和自然度。
  5. 强鲁棒性:对噪声和用户打断具有较强的鲁棒性,能迅速停顿当前输出、准确理解新问题并即时作答,保证对话的流畅性和准确性。

优缺点

优点

  • 响应敏捷自然:采用原生全双工架构,实现低延迟交互,用户体验接近真人对话。
  • 多语言支持:满足不同语言用户的对话需求,具有广泛的应用前景。
  • 高效训练:利用少量音频数据训练出高参数量模型,降低训练成本。

缺点

  • 音色克隆未专门优化:在文本转语音任务中,SIM分数较低,音色克隆能力有待提升。
  • 对硬件要求较高:由于模型参数量较大,对硬件资源有一定要求。

如何使用

  1. 访问项目平台:通过GitHub仓库或Hugging Face模型页获取FLM-Audio模型。
  2. 选择使用方式:根据需求选择本地部署、在线推理或集成到现有系统中。
  3. 输入音频:通过麦克风或音频文件输入问题,模型将实时生成回答。
  4. 获取回答:模型将边听边说,即时回应问题,用户可随时打断并调整对话方向。

框架技术原理

FLM-Audio采用原生全双工架构,将听觉、说话和独白通道在每个时间步合并处理,实现“边听边想边说”。模型通过自然独白训练,采用连续句段与停顿组成的“自然独白”代替逐词对齐,更接近人类真实说话方式。同时,通过双重训练策略,将独白交替放在音频首尾进行训练,强化语言与声学语义的对齐,提高模型对语音内容的理解和生成能力。

创新点

  1. 自然独白对齐:从“词对齐”到“句对齐”,允许模型先完成整个句子的文本生成,再统一决定最自然的语音表达方式,提升发音准确性和语言连贯性。
  2. 双重训练范式:通过后训练和有监督微调,构建“听说能力”全闭环,使模型在全双工交互中表现更自然、更强大。
  3. 低数据高效训练:利用少量音频数据训练出高参数量模型,为模型训练效率与泛化能力打开新空间。

评估标准

FLM-Audio的评估主要基于以下标准:

  • 音频理解能力:通过自动语音识别(ASR)和语音问答(Spoken QA)任务评估模型对语音内容的理解能力。
  • 音频生成能力:通过文本转语音(TTS)任务评估模型生成语音的自然度和流畅性。
  • 全双工对话能力:通过多轮语音对话任务评估模型在实时交互中的表现,包括响应速度、流畅度、对打断的处理能力等。

应用领域

  1. 游戏与虚拟现实(VR):NPC可实现不间断、可打断的自然语音互动,增强游戏的沉浸感。
  2. 智能客服:低延迟对话减少用户等待,提升客服效率和用户体验。
  3. 智能陪伴:为用户提供更接近真人的语音互动,增强陪伴感。
  4. 语音助手:在智能家居、智能办公等场景中,提供更自然的语音交互体验。
  5. 会议辅助:在多人会议中,实时翻译、记录和互动,提高会议效率。

项目地址

© 版权声明

相关文章

暂无评论

暂无评论...