HY-Motion 1.0 ：腾讯混元开源的文本到3D动作生成大模型

AI工具2个月前发布 FuturX-Editor

263 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

HY-Motion 1.0是腾讯混元团队于2025年12月30日开源的十亿参数级文本到3D动作生成大模型。该模型基于Diffusion Transformer（DiT）架构与流匹配机制，首次将此类架构扩展至十亿参数规模，能够通过自然语言描述生成高保真、流畅多样的3D角色骨骼动画。其设计目标是降低3D动画制作门槛，支持游戏开发、影视分镜、VR/AR交互等场景的快速内容生成。 HY-Motion 1.0 ：腾讯混元开源的文本到3D动作生成大模型

功能特点

全流程训练策略：采用“大规模预训练+高质量微调+强化学习对齐”三阶段训练，提升动作流畅性与物理合理性。
广泛动作覆盖：支持6大类超200种动作，包括基础位移、体育竞技、游戏角色动作（如持剑格挡）等。
多工具兼容：输出SMPL-H骨骼格式，可直接导入Blender、Unity、Unreal Engine等主流3D引擎。
复杂指令理解：可生成组合动作（如“一边踢足球一边挥动手臂”）和并发动作，指令遵循能力达78.6%（SSAE指标）。
轻量化部署：提供0.46B参数的Lite版本，支持消费级硬件运行。

优缺点

优点：

动作质量高：在物理合理性、骨骼结构合理性上显著优于MoMask、DART等开源模型，减少悬浮、穿模等问题。
语义对齐强：通过强化学习结合人类反馈，精准理解复杂指令（如“双腿往上跳两次”）。
开源生态友好：公开预训练代码、数据集及训练细节，支持社区二次开发。

缺点：

极限场景不足：职业运动员动作（如跳台滑雪）还原度欠佳，关节过渡偶有不自然。
硬件门槛：完整版需高端GPU，Lite版虽降低要求但仍需一定算力。

如何使用

在线体验：通过Hugging Face Spaces或腾讯官方平台直接调用API，输入文本描述生成动画。
本地部署：
- 下载预训练模型与推理脚本（支持INT8/INT4量化以降低显存需求）。
- 使用可视化工具（如ComfyUI插件）加载模型，输入文本提示词生成FBX格式动画，导入3D引擎编辑。
集成到现有系统：通过腾讯提供的SDK或API服务，将模型嵌入到游戏引擎、动画制作软件中。

框架技术原理

核心架构：基于DiT的混合Transformer模型，采用双流模块（独立处理动作与文本特征）与单流模块（深度多模态融合）。
流匹配机制：通过学习从噪声分布到真实动作的连续变换路径，确保生成过程平滑。
文本编码：使用Qwen3-8B提取细粒度语义嵌入，结合CLIP-L生成全局文本嵌入，通过双向Token精炼器解决自回归模型上下文限制。
训练策略：
- 预训练：在3000小时多样化动作数据上学习通用运动先验。
- 微调：在400小时高质量数据上优化细节流畅性。
- 强化学习：结合人类反馈与奖励模型，优化物理合理性与语义对齐。

创新点

十亿参数规模：首次将DiT架构扩展至十亿参数级，突破动作生成模型的容量瓶颈。
动态逻辑建模：通过流匹配机制捕捉动作演化中的逻辑变化，而非静态片段复现。
全流程开源：公开从数据集构建到训练优化的完整技术链条，推动社区研究。

评估标准

指令遵循能力：通过SSAE（结构化语义对齐评估）指标衡量，HY-Motion 1.0达78.6%。
动作质量：采用人工评分（5分制），平均得分3.43分，超越多数开源基线。
物理合理性：通过滑步漂移、关节速度异常值等指标评估，优化后显著减少伪影。

应用领域

游戏开发：快速生成NPC日常动作（如走动、互动）或主角复杂技能动画。
影视制作：辅助分镜设计、广告走位规划，降低关键帧制作成本。
虚拟数字人：驱动虚拟主播、AI助手的肢体语言，增强交互真实感。
VR/AR内容创作：生成沉浸式体验中的动态场景与角色动作。

项目地址

GitHub仓库：https://github.com/Tencent-Hunyuan/HY-Motion-1.0
Hugging Face模型库：https://huggingface.co/tencent/HY-Motion-1.0
技术报告：arXiv:2512.23464

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

STORM AI—— 斯坦福大学推出的开源AI写作工具

FuturX-Editor

801 0

WOWService : 美团推出的大模型交互系统

FuturX-Editor

295 0

Make-It-Animatable —— 中科大联合腾讯推出的自动生成即时动画准备资产

FuturX-Editor

835 0

Aurora：微软推出的大气基础模型

FuturX-Editor

509 0

Audio-SDS：NVIDIA推出的扩展文本条件音频扩散模型

FuturX-Editor

425 0

混元图像2.1 ：腾讯开源的文生图模型

FuturX-Editor

842 0

暂无评论

暂无评论...

AI全网资源导航每日收集国内外热点AI/人工智能/工具/模型/框架以及最新的AI学习资料/课程等，在这个全新的AI时代，助力每一个人，赋能每一个具体业务场景，与所有人一起努力向前！

友链申请免责声明广告合作关于我们

Copyright © 2026 AI智库导航-aiguide.cc 沪ICP备2022030655号