Dubbing v2 : ElevenLabs 推出的 AI 配音模型

AI工具14小时前发布 FuturX-Editor
18 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

Dubbing v2 是 AI 语音技术公司 ElevenLabs 于 2026 年推出的新一代 AI 配音模型,核心定位是让 AI 配音不再把原声的情感磨成白水。它彻底抛弃了传统”听写—翻译—合成”的分步管线,转而采用端到端的 Audio-to-Audio 架构,直接从原始音频的物理声学特征进行转换,实现跨语言的情感、语气、音高和语调无损迁移。模型支持 29 种语言自动翻译配音,能自动检测并分离多说话人,同时保留原始说话人的音色身份与情感表达。ElevenLabs 官方形容:”翻译后的语音,听上去就像本人真的在说这种语言一样。”目前已在 ElevenCreative 和 ElevenProductions 中可用,后续将以 API 形式开放。Dubbing v2 : ElevenLabs 推出的 AI 配音模型

功能特点

特性 说明
Audio-to-Audio 架构 不走文本转译路线,直接基于源音频声学特征转换,情感无损迁移
90+ 语言原生性能 支持超过 90 种语言的条件化配音(百科标注 29 种自动翻译 + 90+ 原生性能)
双工作流模式 AutoDub 快速自动生成预览;Dubbing Project 进入时间轴编辑器逐段精修
三种语音克隆模式 片段级克隆、轨道级克隆、语音库选择
时间轴编辑器 逐段编辑转录文本、调整翻译、微调时间轴、重新生成片段
同步感知翻译 内置 Sync-aware Translation,译文自动对齐原始音频起始与停顿时间点
多格式支持 导入:MP3/MP4/WAV/MOV 及 YouTube/TikTok/Vimeo/X 链接;导出:MP4/AAC/WAV/SRT/AAF
API 集成 支持批量处理,最长可处理 2.5 小时内容

优缺点

优点

  • 情感保留能力极强——Audio-to-Audio 架构让语气、情绪、音高、语调完整迁移,不像传统 TTS 那样”人味儿跑光”
  • 音色克隆精准——SpeakerEncoder 提取说话人音色特征,目标语言输出仍保持原声身份
  • 全自动零流水线——翻译、克隆、配音、同步四合一,单接口一键交付
  • 多说话人自动分离——无需人工标注,系统自动识别并分轨处理
  • 时间轴自动对齐——动态规划算法匹配翻译文本与原始时间戳,大幅减少后期校准工作量

缺点

  • 定价门槛高——月付 22 美元仅含 9 分钟配额,个人创作者几乎不够用一期播客
  • 依赖 ElevenLabs 生态——目前仅在自家平台可用,API 尚未全面开放
  • 长内容处理受限——单次最长 2.5 小时,超长视频需拆分
  • 竞品压力大——YouTube 已上线多语言音频功能且几乎零成本,Spotify 也在做类似集成

如何使用

整个流程无需写任何代码,分四步完成:

  1. 访问官网——打开 https://elevenlabs.io/dubbing-studio,登录 ElevenLabs 账户
  2. 上传源文件——直接拖入 MP3/MP4/WAV/MOV 文件,或粘贴 YouTube/TikTok/Vimeo/X 的视频链接
  3. 选择工作流——想快速出结果选 AutoDub;需要精细控制选 Dubbing Project,进入时间轴编辑器逐段调整文本、翻译和时间点
  4. 导出成品——选择目标语言后一键生成,支持导出视频、字幕、纯音频等多种格式

框架技术原理

Dubbing v2 的技术核心是 “以音频边界为训练入口”,而非改造执行框架本身。

架构层面:采用端到端 Audio-to-Audio 架构,放弃传统文本中介,直接对原始音频的语气、情感、语调进行条件化建模(conditioning)。系统内置同步感知翻译逻辑(Sync-aware Translation),在生成译文和音频时自动嵌入时间同步信息。

数据流层面:Gateway 在转发请求时实时捕获 prompt、采样 token、对数概率和响应内容,将碎片信息重组为 GRPO 训练器可消费的完整轨迹——不过这部分更多关联其强化学习训练管线,配音核心仍是 Audio-to-Audio 转换。

关键技术模块

  • SpeakerEncoder:提取说话人音色特征,确保目标语言输出保持原声身份
  • 动态规划时间轴对齐:匹配翻译文本与原始时间戳,支持逐段微调
  • 上下文感知翻译引擎:为每种语言调整短语、节奏和句子结构,避免直译失真

创新点

  1. Audio-to-Audio 范式颠覆——不再依赖”ASR→翻译→TTS”三段式,直接从声学特征层面做跨语言转换,这是对传统配音管线的根本性重构
  2. 情感无损迁移——音高、语调、情绪、说话方式原样搬进目标语言,解决了 AI 配音”嘴形对得上、情绪像 Siri”的行业痛点
  3. 同步感知翻译——翻译系统底层嵌入时间同步逻辑,生成内容自动对齐原始音频节拍,手工校准工作量大幅减少
  4. 黑盒化兼容——无论源音频是哪种语言、哪种口音,模型都能无感适配,真正做到”任何音频都能配”

评估标准

目前 ElevenLabs 官方未公布类似 SWE-Bench 的标准化基准数据,但从公开演示和媒体评测来看:

维度 表现
情感保留度 发布会演示中,MrBeast 的”咋咋呼呼”风格在多语言转换后完整保留,卡通青蛙说日语仍有搞怪味道
时间同步精度 同步感知翻译实现自动对齐,无需人工掐秒表对波形
音色克隆一致性 目标语言输出保持原说话人声音身份,听众难以分辨是否为原声
处理效率 全自动流水线,数分钟内完成一段视频的多语言配音

与竞品对比(基于媒体评测):

维度 Dubbing v2 传统 TTS 配音
情感表达 完整保留 几乎丢失
时间同步 自动对齐 手动校准
多说话人 自动分离 单一声线
音色保留 原声身份不变 预设或克隆音色

应用领域

  • 视频内容本地化——YouTuber、影视团队将内容快速翻译为多语言版本,突破语言壁垒
  • 有声书制作——Spotify 已与 ElevenLabs 合作推出有声书工具,Dubbing v2 可一键生成多语言有声书
  • 企业培训材料——多语言版本培训视频,降低翻译+配音的人力成本
  • 游戏配音——NPC 对话的多语言适配,保留角色个性与情感
  • 广告营销——同一广告快速生成多语言版本,保持品牌调性一致
  • 教育内容——教学视频多语言配音,扩大受众覆盖

项目地址

  • 官网:https://elevenlabs.io/dubbing-studio
  • 公司主页:https://elevenlabs.io

Dubbing v2 把 AI 配音从”能用”推进到了”好用”的新阶段——当”本人说话”的错觉一旦建立,就很难再忍受机器棒读。但 22 美元换 9 分钟的定价策略,或许才是它真正需要解决的问题。

© 版权声明

相关文章

暂无评论

暂无评论...