OmniAudio ：阿里通义推出的空间音频生成模型

431 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

OmniAudio是阿里通义实验室推出的一项突破性空间音频生成技术，能够直接从360°视频生成FOA（First-order Ambisonics）空间音频，为虚拟现实和沉浸式娱乐带来全新可能。该技术解决了传统空间音频制作依赖专业设备与人工后期的痛点，通过自监督coarse-to-fine预训练和双分支视频表示微调，在非空间音频质量和空间定位准确性上显著优于现有方法。项目包含超过103,000个视频片段的Sphere360数据集，支持高质量的模型训练与评估，代码、数据及论文均已开源，助力沉浸式体验技术发展。

功能特点

360°视频到空间音频生成：直接从360°全景视频生成FOA格式的3D空间音频，捕捉声音的方向性，实现真实的3D音频再现。
高精度空间定位：能够准确模拟声音的空间方位、距离及反射特性，提升沉浸式体验。
支持多种应用场景：涵盖影视制作、虚拟社交、智能座舱等多个领域。
开源生态：代码、数据及论文均已开源，促进技术共享与创新。

优缺点

优点：

技术突破：首次实现从360°视频直接生成空间音频，降低制作成本90%以上。
高质量数据集：Sphere360数据集包含超过103,000个视频片段，涵盖288种音频事件，总时长288小时，支持高质量训练与评估。
广泛应用：适用于影视制作、虚拟社交、智能座舱等多个领域，推动沉浸式体验技术发展。

缺点：

物理精度有限：相比基于物理建模的方案，AI生成音频的反射仿真仍有差距。
实时性待提升：当前推理延迟约200ms，尚未达到VR交互的毫秒级要求。

如何使用

访问项目主页：用户可通过OmniAudio项目主页了解技术详情。
获取代码与数据：代码和数据开源仓库位于GitHub，用户可下载并部署模型。
参考技术论文：论文地址为arXiv，提供详细的技术原理与实验结果。

框架技术原理

360V2SA任务框架：通过端到端深度学习，直接解析全景视频中的视觉场景与声源物理关系，动态映射声音的空间方位、距离及反射特性。
自监督coarse-to-fine预训练：利用大规模非空间音频资源，通过流匹配方法实现音频时序和结构的自监督学习，掌握通用音频特征和宏观时域规律。
双分支视频表示微调：结合全局特征和局部细节表征，高效微调条件流场，从噪声中“雕刻”出符合视觉指示的FOA潜在轨迹。

创新点

提出360V2SA任务：直接从360°视频生成空间音频，填补技术空白。
构建Sphere360数据集：解决训练数据稀缺问题，支持高质量模型训练与评估。
双阶段训练方法：通过自监督预训练和有监督微调，提升模型对空间特征的泛化能力与生成质量。

评估标准

非空间音频质量：采用Frechet Distance（FD）和Kullback-Leibler散度（KL）衡量生成音频和真实音频在OpenL3特征空间的分布差异和标签分布差异。
空间音频准确度：计算声源方向估计误差，包括绝对方位角误差、绝对仰角误差及综合角度误差。
主观评测：通过人工打分得到空间音频质量MOS-SQ和视音对齐保真度MOS-AF，评估生成音频的空间感、清晰度及画面与声音的同步度。