SongGeneration : 腾讯AI Lab开源的音乐生成大模型
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
SongGeneration是腾讯AI Lab推出并开源的一款音乐生成大模型,旨在解决音乐生成领域中音质、音乐性和生成速度三大难题。该模型基于LLM-DiT融合架构,通过海量中英文歌曲的预训练,实现了高质量的音乐生成能力。SongGeneration不仅支持文本控制、多轨合成与风格跟随等功能,还构建了面向未来的音乐AI生产力工具,推动了“人人皆可创作音乐”的愿景实现。

功能特点
- 文本控制:用户输入关键词文本(如“开心 流行”、“激烈 摇滚”),即可生成符合特定风格和情绪的完整音乐作品。
- 风格跟随:用户上传参考音频,模型可生成风格一致的全长新曲,覆盖流行、摇滚、中国风等多种流派。
- 多轨生成:自动生成分离的人声与伴奏轨道,保证旋律、结构、节奏与配器的高度匹配。
- 音色跟随:支持基于参考音频的音色跟随功能,生成歌曲具备“音色克隆”级别的人声表现。
- 高质量生成:基于LLM-DiT融合架构,模型在保持生成速度的同时,显著提升了音质表现。
优缺点
优点:
- 音质卓越:生成歌曲的准确度相较部分商业闭源模型表现出相当甚至更优的质量。
- 功能丰富:支持文本控制、多轨合成、风格跟随和音色跟随等多种功能,满足不同用户的需求。
- 开源友好:推出面向开源社区的友好版本,便于开发者进行二次开发和优化。
缺点:
- 数据依赖:模型性能高度依赖于训练数据的质量和多样性,对于小众或特定风格的音乐生成可能存在局限性。
- 计算资源:尽管模型在生成速度上有所提升,但仍需要较高的计算资源进行训练和推理。
- 创意边界:虽然模型能够生成高质量的音乐,但在创意和原创性方面仍难以完全替代人类音乐人。
如何使用
SongGeneration已开源,开发者可通过以下步骤使用:
- 访问项目地址:获取模型的代码和预训练权重。
- 环境配置:按照项目文档配置开发环境,包括安装必要的依赖库和框架。
- 模型加载:加载预训练模型或根据需求进行微调。
- 输入指令:通过文本、音频或MIDI文件等方式输入生成指令。
- 生成音乐:运行模型生成音乐作品,并根据需要进行后处理和优化。
框架技术原理
SongGeneration的训练架构包含数据管线和生成模型两部分:
- 数据管线:搭建了一套包含音伴分离、结构分析、歌词识别等模块的音乐数据管线,从原始音频中提取准确的歌词、结构、曲风和音质等标签数据。
- 生成模型:由codec、LM、FM、VAE等部分组成,每个模块单独训练。其中,Music Codec用于对音乐进行编解码,能以超低比特率将48kHz的双通道音乐压缩成25Hz的离散表征,并实现高保真的还原;Music LM用于根据用户指令生成完整的歌曲。
SongGeneration还创新性地提出了“混合优先,双轨其次”的多类别token并行预测策略,通过语言模型对混合token进行预测,指导旋律、节奏、节拍等高级结构信息的整体安排,再通过扩展的自回归解码器进一步建模双轨token,提升音质和音乐性。
创新点
- 音质与速度的平衡:基于LLM-DiT融合架构,实现了音质、音乐性和生成速度的显著提升。
- 多轨生成与音色跟随:支持自动生成分离的人声与伴奏轨道,以及基于参考音频的音色跟随功能。
- 开源与社区生态:推出面向开源社区的友好版本,构建开放、灵活、可持续的音乐AI生态系统。
- 极低比特率编解码器:创新性地提出了业内开源模型中最低比特率、最低码率的双通道48kHz高质量音乐编解码器。
评估标准
SongGeneration的评估标准包括客观分析和主观感知两个方面:
- 客观分析:通过音质、音乐性、生成速度等指标进行量化评估。
- 主观感知:邀请专业音乐人从整体连贯性、记忆性、呼吸与唱词的自然性、歌曲结构的清晰度以及整体音乐性等维度进行打分评价。
此外,还可以参考SongEval等开源的音乐美学评估基准,对生成的音乐作品进行多维度的美学评价。
应用领域
- 内容创作平台:为短视频、游戏、虚拟人演出等提供配乐和音效。
- 音乐创作:辅助音乐人进行作曲、编曲和混音等工作。
- 音乐教育:作为音乐教育的工具,帮助学生探索不同的音乐风格和创作技巧。
- 个性化音乐体验:根据用户的情感或活动生成个性化的音乐。
项目地址
- GitHub仓库:https://github.com/tencent-ailab/SongGeneration
- HuggingFace模型库:https://huggingface.co/tencent/SongGeneration
- arXiv技术论文:https://arxiv.org/pdf/2506.07520
- 在线体验Demo:https://huggingface.co/spaces/tencent/SongGeneration
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...