TRELLIS.2 : 微软开源的40亿参数3D生成模型
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
TRELLIS.2是微软联合清华大学、中国科学技术大学推出的开源3D生成模型,拥有40亿参数,专为高保真图像到3D生成设计。该模型基于原生3D VAE架构,采用创新的O-Voxel稀疏体素结构,可生成分辨率高达1536³的PBR(物理基础渲染)纹理资产,支持复杂拓扑、锐利特征与多材质建模。其核心目标是通过单张图片或文本描述,快速生成工业级3D模型,降低3D内容创作门槛,推动游戏、影视、虚拟现实等领域的技术革新。
功能特点
- 高效生成:在英伟达H100 GPU上,仅需3秒即可生成512³分辨率的3D模型,支持从512³到1536³的多分辨率输出。
- 复杂拓扑处理:突破传统等值面场限制,可稳健处理开放表面(如衣物、树叶)、非流形几何体和内部封闭结构,避免细节丢失。
- 完整PBR材质建模:支持基础颜色、粗糙度、金属度、不透明度等属性建模,实现照片级真实感渲染和透明效果。
- 极简数据处理:纹理网格与O-Voxel转换无需渲染或优化,单CPU上10秒内完成带纹理网格转换,CUDA反向转换仅需不到100毫秒。
- 多模态输入:支持图像到3D生成和文本到3D生成,用户可通过图片或文字指令生成所需3D对象。
优缺点
- 优点:
- 生成质量高:40亿参数模型结合稀疏3D VAE编码,实现16倍空间压缩,生成资产细节丰富、保真度卓越。
- 效率领先:3秒生成512³模型,速度远超传统方法,适合快速原型制作。
- 灵活性强:支持复杂拓扑、多材质和透明效果,满足多样化设计需求。
- 缺点:
- 硬件依赖:高效生成需顶级显卡(如H100),普通设备性能受限。
- 数据需求高:大规模预训练依赖海量3D数据,数据获取成本较高。
如何使用
- 在线体验Demo:通过Hugging Face Space(https://huggingface.co/spaces/microsoft/TRELLIS.2)上传图片或输入文本,实时生成3D模型并预览效果。
- 行业模板库:利用预置的游戏、影视、建筑等场景模板,快速生成定制化3D资产,支持团队协作优化。
- 可视化工具:通过交互式界面调整材质属性(如粗糙度、金属度)、分辨率等参数,观察生成结果变化,辅助理解模型行为。
框架技术原理
- O-Voxel稀疏体素结构:采用“无场”稀疏体素表示法,识别3D空间中的“活跃区”(含物体区域),集中算力处理,跳过空白区域,实现16倍空间压缩。
- 稀疏3D VAE编码:将3D资产编码到紧凑潜在空间,结合标准扩散变换器(DiT)高效生成高分辨率、完全纹理化的资产。
- 多任务联合训练:联合优化像素重建、语义理解、空间结构感知等目标,平衡底层细节与高层语义,避免过拟合。
创新点
- 突破分词器扩展定律:首次证明分词器的参数、算力、数据规模扩展可显著提升3D生成性能,挑战传统“分词器扩展无效”认知。
- 理解力驱动生成:将分词器升级为表征学习模型,通过语义理解和空间结构感知,生成更符合人类认知的3D内容。
- 任意拓扑统一建模:O-Voxel结构实现复杂拓扑、锐利特征与完整PBR材质的统一建模,支持透明/半透明效果。
评估标准
- 生成质量:采用gFID(生成图像与真实图像的Fréchet Inception Distance)衡量3D模型的逼真度和多样性。
- 重建质量:使用rFID(重建图像与原始图像的Fréchet Inception Distance)评估信息保留能力。
- 效率指标:测试生成速度(如512³模型生成时间)、空间压缩率(如16倍下采样)等。
- 拓扑处理能力:通过复杂结构生成任务(如开放表面、非流形几何)验证模型稳健性。
应用领域
- 游戏开发:快速生成高质量3D角色、道具和场景资产,降低独立游戏开发者和中小型工作室的制作成本与时间。
- 影视制作:创建逼真的3D特效和虚拟场景,支持复杂材质和纹理,满足影视行业对视觉效果的高要求。
- 虚拟现实(VR)与增强现实(AR):生成沉浸式3D环境和物体,加速虚拟世界构建。
- 建筑设计与可视化:快速生成建筑模型和室内设计3D可视化,辅助设计方案评估。
- 工业设计与产品开发:创建产品原型3D模型,加速设计迭代和虚拟展示。
- 创意内容与社交媒体:普通用户可通过图片轻松创建专业级3D模型,用于短视频、AR滤镜等创意表达。
项目地址
- GitHub仓库:https://github.com/microsoft/TRELLIS.2
- 项目官网:https://microsoft.github.io/TRELLIS.2/
- Hugging Face模型库:https://huggingface.co/microsoft/TRELLIS.2-4B
- 技术论文:arXiv:2512.14692
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...