HY-Motion 1.0 : 腾讯混元开源的文本到3D动作生成大模型

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

HY-Motion 1.0是腾讯混元团队于2025年12月30日开源的十亿参数级文本到3D动作生成大模型。该模型基于Diffusion Transformer(DiT)架构与流匹配机制,首次将此类架构扩展至十亿参数规模,能够通过自然语言描述生成高保真、流畅多样的3D角色骨骼动画。其设计目标是降低3D动画制作门槛,支持游戏开发、影视分镜、VR/AR交互等场景的快速内容生成。HY-Motion 1.0 : 腾讯混元开源的文本到3D动作生成大模型

功能特点

  • 全流程训练策略:采用“大规模预训练+高质量微调+强化学习对齐”三阶段训练,提升动作流畅性与物理合理性。
  • 广泛动作覆盖:支持6大类超200种动作,包括基础位移、体育竞技、游戏角色动作(如持剑格挡)等。
  • 多工具兼容:输出SMPL-H骨骼格式,可直接导入Blender、Unity、Unreal Engine等主流3D引擎。
  • 复杂指令理解:可生成组合动作(如“一边踢足球一边挥动手臂”)和并发动作,指令遵循能力达78.6%(SSAE指标)。
  • 轻量化部署:提供0.46B参数的Lite版本,支持消费级硬件运行。

优缺点

优点

  • 动作质量高:在物理合理性、骨骼结构合理性上显著优于MoMask、DART等开源模型,减少悬浮、穿模等问题。
  • 语义对齐强:通过强化学习结合人类反馈,精准理解复杂指令(如“双腿往上跳两次”)。
  • 开源生态友好:公开预训练代码、数据集及训练细节,支持社区二次开发。

缺点

  • 极限场景不足:职业运动员动作(如跳台滑雪)还原度欠佳,关节过渡偶有不自然。
  • 硬件门槛:完整版需高端GPU,Lite版虽降低要求但仍需一定算力。

如何使用

  1. 在线体验:通过Hugging Face Spaces或腾讯官方平台直接调用API,输入文本描述生成动画。
  2. 本地部署
    • 下载预训练模型与推理脚本(支持INT8/INT4量化以降低显存需求)。
    • 使用可视化工具(如ComfyUI插件)加载模型,输入文本提示词生成FBX格式动画,导入3D引擎编辑。
  3. 集成到现有系统:通过腾讯提供的SDK或API服务,将模型嵌入到游戏引擎、动画制作软件中。

框架技术原理

  • 核心架构:基于DiT的混合Transformer模型,采用双流模块(独立处理动作与文本特征)与单流模块(深度多模态融合)。
  • 流匹配机制:通过学习从噪声分布到真实动作的连续变换路径,确保生成过程平滑。
  • 文本编码:使用Qwen3-8B提取细粒度语义嵌入,结合CLIP-L生成全局文本嵌入,通过双向Token精炼器解决自回归模型上下文限制。
  • 训练策略
    • 预训练:在3000小时多样化动作数据上学习通用运动先验。
    • 微调:在400小时高质量数据上优化细节流畅性。
    • 强化学习:结合人类反馈与奖励模型,优化物理合理性与语义对齐。

创新点

  • 十亿参数规模:首次将DiT架构扩展至十亿参数级,突破动作生成模型的容量瓶颈。
  • 动态逻辑建模:通过流匹配机制捕捉动作演化中的逻辑变化,而非静态片段复现。
  • 全流程开源:公开从数据集构建到训练优化的完整技术链条,推动社区研究。

评估标准

  • 指令遵循能力:通过SSAE(结构化语义对齐评估)指标衡量,HY-Motion 1.0达78.6%。
  • 动作质量:采用人工评分(5分制),平均得分3.43分,超越多数开源基线。
  • 物理合理性:通过滑步漂移、关节速度异常值等指标评估,优化后显著减少伪影。

应用领域

  • 游戏开发:快速生成NPC日常动作(如走动、互动)或主角复杂技能动画。
  • 影视制作:辅助分镜设计、广告走位规划,降低关键帧制作成本。
  • 虚拟数字人:驱动虚拟主播、AI助手的肢体语言,增强交互真实感。
  • VR/AR内容创作:生成沉浸式体验中的动态场景与角色动作。

项目地址

© 版权声明

相关文章

暂无评论

暂无评论...