OmniAudio : 阿里通义推出的空间音频生成模型

AI工具4小时前发布 FuturX-Editor
12 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

OmniAudio是阿里通义实验室推出的一项突破性空间音频生成技术,能够直接从360°视频生成FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来全新可能。该技术解决了传统空间音频制作依赖专业设备与人工后期的痛点,通过自监督coarse-to-fine预训练和双分支视频表示微调,在非空间音频质量和空间定位准确性上显著优于现有方法。项目包含超过103,000个视频片段的Sphere360数据集,支持高质量的模型训练与评估,代码、数据及论文均已开源,助力沉浸式体验技术发展。

OmniAudio : 阿里通义推出的空间音频生成模型

功能特点

  • 360°视频到空间音频生成:直接从360°全景视频生成FOA格式的3D空间音频,捕捉声音的方向性,实现真实的3D音频再现。
  • 高精度空间定位:能够准确模拟声音的空间方位、距离及反射特性,提升沉浸式体验。
  • 支持多种应用场景:涵盖影视制作、虚拟社交、智能座舱等多个领域。
  • 开源生态:代码、数据及论文均已开源,促进技术共享与创新。

优缺点

优点

  • 技术突破:首次实现从360°视频直接生成空间音频,降低制作成本90%以上。
  • 高质量数据集:Sphere360数据集包含超过103,000个视频片段,涵盖288种音频事件,总时长288小时,支持高质量训练与评估。
  • 广泛应用:适用于影视制作、虚拟社交、智能座舱等多个领域,推动沉浸式体验技术发展。

缺点

  • 物理精度有限:相比基于物理建模的方案,AI生成音频的反射仿真仍有差距。
  • 实时性待提升:当前推理延迟约200ms,尚未达到VR交互的毫秒级要求。

如何使用

  • 访问项目主页:用户可通过OmniAudio项目主页了解技术详情。
  • 获取代码与数据:代码和数据开源仓库位于GitHub,用户可下载并部署模型。
  • 参考技术论文:论文地址为arXiv,提供详细的技术原理与实验结果。

框架技术原理

  • 360V2SA任务框架:通过端到端深度学习,直接解析全景视频中的视觉场景与声源物理关系,动态映射声音的空间方位、距离及反射特性。
  • 自监督coarse-to-fine预训练:利用大规模非空间音频资源,通过流匹配方法实现音频时序和结构的自监督学习,掌握通用音频特征和宏观时域规律。
  • 双分支视频表示微调:结合全局特征和局部细节表征,高效微调条件流场,从噪声中“雕刻”出符合视觉指示的FOA潜在轨迹。

创新点

  • 提出360V2SA任务:直接从360°视频生成空间音频,填补技术空白。
  • 构建Sphere360数据集:解决训练数据稀缺问题,支持高质量模型训练与评估。
  • 双阶段训练方法:通过自监督预训练和有监督微调,提升模型对空间特征的泛化能力与生成质量。

评估标准

  • 非空间音频质量:采用Frechet Distance(FD)和Kullback-Leibler散度(KL)衡量生成音频和真实音频在OpenL3特征空间的分布差异和标签分布差异。
  • 空间音频准确度:计算声源方向估计误差,包括绝对方位角误差、绝对仰角误差及综合角度误差。
  • 主观评测:通过人工打分得到空间音频质量MOS-SQ和视音对齐保真度MOS-AF,评估生成音频的空间感、清晰度及画面与声音的同步度。

应用领域

  • 影视制作:为VR电影自动生成沉浸式音效,提升观众体验。
  • 虚拟社交:在元宇宙会议中还原参与者方位声像,增强社交互动的真实感。
  • 智能座舱:结合车载摄像头实现事故现场声音重放,提升驾驶安全性。
  • 游戏与娱乐:为游戏角色和场景生成精准的空间音频,提升沉浸感。

项目地址

© 版权声明

相关文章

暂无评论

暂无评论...