HY-Motion 1.0 : 腾讯混元开源的文本到3D动作生成大模型
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
HY-Motion 1.0是腾讯混元团队于2025年12月30日开源的十亿参数级文本到3D动作生成大模型。该模型基于Diffusion Transformer(DiT)架构与流匹配机制,首次将此类架构扩展至十亿参数规模,能够通过自然语言描述生成高保真、流畅多样的3D角色骨骼动画。其设计目标是降低3D动画制作门槛,支持游戏开发、影视分镜、VR/AR交互等场景的快速内容生成。
功能特点
- 全流程训练策略:采用“大规模预训练+高质量微调+强化学习对齐”三阶段训练,提升动作流畅性与物理合理性。
- 广泛动作覆盖:支持6大类超200种动作,包括基础位移、体育竞技、游戏角色动作(如持剑格挡)等。
- 多工具兼容:输出SMPL-H骨骼格式,可直接导入Blender、Unity、Unreal Engine等主流3D引擎。
- 复杂指令理解:可生成组合动作(如“一边踢足球一边挥动手臂”)和并发动作,指令遵循能力达78.6%(SSAE指标)。
- 轻量化部署:提供0.46B参数的Lite版本,支持消费级硬件运行。
优缺点
优点:
- 动作质量高:在物理合理性、骨骼结构合理性上显著优于MoMask、DART等开源模型,减少悬浮、穿模等问题。
- 语义对齐强:通过强化学习结合人类反馈,精准理解复杂指令(如“双腿往上跳两次”)。
- 开源生态友好:公开预训练代码、数据集及训练细节,支持社区二次开发。
缺点:
- 极限场景不足:职业运动员动作(如跳台滑雪)还原度欠佳,关节过渡偶有不自然。
- 硬件门槛:完整版需高端GPU,Lite版虽降低要求但仍需一定算力。
如何使用
- 在线体验:通过Hugging Face Spaces或腾讯官方平台直接调用API,输入文本描述生成动画。
- 本地部署:
- 下载预训练模型与推理脚本(支持INT8/INT4量化以降低显存需求)。
- 使用可视化工具(如ComfyUI插件)加载模型,输入文本提示词生成FBX格式动画,导入3D引擎编辑。
- 集成到现有系统:通过腾讯提供的SDK或API服务,将模型嵌入到游戏引擎、动画制作软件中。
框架技术原理
- 核心架构:基于DiT的混合Transformer模型,采用双流模块(独立处理动作与文本特征)与单流模块(深度多模态融合)。
- 流匹配机制:通过学习从噪声分布到真实动作的连续变换路径,确保生成过程平滑。
- 文本编码:使用Qwen3-8B提取细粒度语义嵌入,结合CLIP-L生成全局文本嵌入,通过双向Token精炼器解决自回归模型上下文限制。
- 训练策略:
- 预训练:在3000小时多样化动作数据上学习通用运动先验。
- 微调:在400小时高质量数据上优化细节流畅性。
- 强化学习:结合人类反馈与奖励模型,优化物理合理性与语义对齐。
创新点
- 十亿参数规模:首次将DiT架构扩展至十亿参数级,突破动作生成模型的容量瓶颈。
- 动态逻辑建模:通过流匹配机制捕捉动作演化中的逻辑变化,而非静态片段复现。
- 全流程开源:公开从数据集构建到训练优化的完整技术链条,推动社区研究。
评估标准
- 指令遵循能力:通过SSAE(结构化语义对齐评估)指标衡量,HY-Motion 1.0达78.6%。
- 动作质量:采用人工评分(5分制),平均得分3.43分,超越多数开源基线。
- 物理合理性:通过滑步漂移、关节速度异常值等指标评估,优化后显著减少伪影。
应用领域
- 游戏开发:快速生成NPC日常动作(如走动、互动)或主角复杂技能动画。
- 影视制作:辅助分镜设计、广告走位规划,降低关键帧制作成本。
- 虚拟数字人:驱动虚拟主播、AI助手的肢体语言,增强交互真实感。
- VR/AR内容创作:生成沉浸式体验中的动态场景与角色动作。
项目地址
- GitHub仓库:https://github.com/Tencent-Hunyuan/HY-Motion-1.0
- Hugging Face模型库:https://huggingface.co/tencent/HY-Motion-1.0
- 技术报告:arXiv:2512.23464
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...