AudioFly : 科大讯飞开源的文生音效模型
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
AudioFly是科大讯飞推出的开源文生音效模型,基于潜在扩散模型(LDM)架构,能够根据文本描述生成高质量音频。该模型支持44.1kHz采样率,在文本与音效的匹配度上表现优异,适用于短视频配音、有声故事生成、游戏音效设计等场景。2025年9月,科大讯飞宣布AudioFly与星火化学大模型Spark Chemistry-X1-13B同步开源,并在GitCode平台首发,全球开发者可免费获取模型资源,支持本地部署、推理和微调。

功能特点
- 高质量音频生成:支持44.1kHz采样率,生成音频清晰自然,接近专业录音质量。
- 文本与音效强匹配:通过海量多元声音数据训练,模型能精准理解文本描述并生成对应音效。
- 多场景支持:涵盖单事件(如单一音效)和多事件(如复杂场景音效)生成,适应不同需求。
- 低门槛使用:开源后开发者无需复杂硬件,即可在本地部署或通过平台接口调用。
- 鲁棒性强:在未针对性微调的情况下,于学术数据集AudioCaps测试集中取得SOTA(最优)指标。
优缺点
优点:
- 生成效率高:潜在扩散模型架构优化了生成流程,速度优于传统方法。
- 适用性广:支持多种音效场景,降低音效设计门槛。
- 开源生态完善:依托GitCode社区,提供模型托管、开发者协同和资源整合支持。
缺点:
- 复杂场景局限性:对极端复杂或抽象音效的生成能力仍需提升。
- 数据依赖性:性能受训练数据规模和多样性影响,小规模数据下可能泛化不足。
如何使用
- 访问GitCode平台:通过GitCode官网获取模型资源。
- 选择使用方式:
- 本地部署:下载模型后,在支持PyTorch的环境中加载,输入文本即可生成音频。
- 在线推理:通过Hugging Face等平台提供的接口直接调用模型。
- 输入文本描述:提供音效的文本描述(如“雨滴敲打窗户的声音”)。
- 获取结果:模型输出44.1kHz采样率的音频文件,支持WAV等通用格式。
框架技术原理
AudioFly采用潜在扩散模型(LDM)架构,其核心原理包括:
- 潜在空间编码:将音频数据压缩至低维潜在空间,减少计算量。
- 扩散过程:通过逐步添加噪声破坏数据,再学习反向去噪过程生成音频。
- 条件机制:以文本描述为条件,引导扩散模型生成符合语义的音效。
- 海量数据训练:使用AudioSet、AudioCaps和TUT等开源数据集,结合专有内部数据,提升模型泛化能力。
创新点
- 高效生成架构:潜在扩散模型优化了生成流程,速度优于传统自回归模型。
- 文本-音效强对齐:通过大规模数据训练,实现文本与音效的精准匹配。
- 多事件场景支持:首次在开源模型中实现复杂场景音效的生成。
- 低门槛部署:开源后开发者无需复杂硬件,即可在本地或云端使用。
评估标准
- 音频质量:通过信噪比(SNR)、无损音质百分比等指标评估清晰度。
- 文本匹配度:人工主观评价生成音频与文本描述的一致性。
- 多样性:评估模型生成不同音效的能力。
- 效率:测量生成单段音频所需时间。
- 基准测试:在AudioCaps等学术数据集上对比SOTA模型性能。
应用领域
- 短视频与广告:快速生成背景音效,提升视频吸引力。
- 游戏开发:设计角色动作、环境音效,增强沉浸感。
- 有声内容创作:为有声书、播客提供音效支持。
- 虚拟现实(VR):生成3D空间音效,优化用户体验。
- 教育:制作互动式教学素材,如科学实验音效模拟。
项目地址
- GitCode开源页面:https://ai.gitcode.com/ifly_opensource/AudioFly
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...