SongGeneration 2 : 腾讯联合清华开源的音乐生成模型

AI工具2小时前发布 FuturX-Editor
6 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

SongGeneration 2是腾讯与清华大学人机语音交互实验室联合推出的开源音乐生成大模型,旨在解决AI音乐创作中的音乐性、歌词准确性和可控性三大痛点。该模型采用混合LLM-扩散架构,结合分层表征建模技术,支持中英文等多语种生成,能够生成高质量的完整歌曲,并具备商业级应用潜力。SongGeneration 2 : 腾讯联合清华开源的音乐生成模型

功能特点

  1. 高质量音乐生成:支持生成长达4分30秒的完整歌曲,旋律优美,编曲层次丰富。
  2. 多语种歌词合成:支持中、英、西、日等多语种歌词生成,音素错误率(PER)低至8.55%,发音清晰准确。
  3. 多样化生成模式:可灵活输出完整歌曲、纯音乐、纯人声或分离的人声与伴奏双音轨。
  4. 精准风格控制:通过文本描述(如性别、曲风、情绪、乐器)或10秒音频提示,精确控制生成风格。
  5. 灵活部署选项:支持在22GB显存的消费级硬件上本地运行,并提供HuggingFace在线快速体验版本。

优缺点

优点

  • 歌词准确性显著提升,音素错误率优于顶级商业模型Suno v5。
  • 支持复杂多轨编曲,音乐层次感和空间感强。
  • 可控性强,能够深度定制风格与情绪。
  • 开源策略降低了音乐创作门槛,支持本地化创作与隐私保护。

缺点

  • 本地运行对硬件要求较高,需至少22GB显存。
  • 在线体验版本(Fast版)为提升速度牺牲了少量音质。

如何使用

  1. 在线体验:访问HuggingFace平台上的SongGeneration 2在线演示空间(HuggingFace Demo),通过网页界面输入文本描述或上传参考音频,即可生成音乐。
  2. 本地部署
    • 准备一台配备22GB显存的GPU的电脑。
    • 从GitHub克隆项目仓库(GitHub仓库),安装依赖项。
    • 运行模型,通过命令行或图形界面输入歌词和风格参数,生成音乐文件。

框架技术原理

SongGeneration 2采用混合LLM-扩散架构,由作曲大脑(LeLM)和高保真渲染器(Diffusion)共同驱动。

  • LeLM(语言模型):负责全局音乐结构与演奏细节的规划,确保歌曲的整体和谐与连贯性。
  • Diffusion(扩散模型):在LeLM的指导下,合成复杂的声学细节,提升音乐的真实感和音质。
  • 分层表征建模:采用混合表征(Mixed Tokens)捕捉高层级旋律与结构语义,多轨表征(Dual-Track Tokens)分别建模人声与伴奏轨道的细粒度声学变化。

创新点

  1. 混合LLM-扩散架构:结合语言模型的全局规划能力和扩散模型的细节合成能力,平衡音乐性与音质。
  2. 分层表征建模:通过混合表征与多轨表征并行建模,兼顾旋律稳定性与音质精细度。
  3. 自动化美学评估:基于专家标注样本构建细粒度评估框架,为模型训练注入音乐性先验知识。
  4. 三阶段渐进式后训练:通过SFT、大规模离线DPO和半在线DPO,逐步优化模型性能,突破音乐性上限。

评估标准

SongGeneration 2的评估主要基于以下标准:

  • 音乐性:通过专家盲测评估歌曲的整体质量、旋律优美度、编曲丰富度、音质清晰度和结构完整性。
  • 歌词准确性:采用音素错误率(PER)作为主要指标,评估歌词的发音清晰度和准确性。
  • 可控性:评估模型对文本描述和音频提示的遵循程度,以及风格迁移的准确性。
  • 生成效率:衡量模型生成完整歌曲所需的时间,以及在不同硬件条件下的运行效率。

应用领域

  1. 音乐创作辅助:为独立音乐人提供快速生成demo的工具,降低编曲门槛与制作成本。
  2. 视频配乐制作:为自媒体创作者提供即时生成定制化背景音乐的能力,满足视频风格与情绪需求。
  3. 游戏音频开发:为游戏厂商批量生成适配不同场景、角色与剧情的主题音乐与音效。
  4. 广告与营销内容:为品牌方快速生成专属jingle,实现音频资产的快速迭代。
  5. 教育与娱乐应用:为音乐教学平台提供风格化伴奏生成,支持K歌与社交应用中的个性化歌曲创作。

项目地址

© 版权声明

相关文章

暂无评论

暂无评论...