TRELLIS.2 : 微软开源的40亿参数3D生成模型

AI工具2小时前发布 FuturX-Editor
5 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

TRELLIS.2是微软联合清华大学、中国科学技术大学推出的开源3D生成模型,拥有40亿参数,专为高保真图像到3D生成设计。该模型基于原生3D VAE架构,采用创新的O-Voxel稀疏体素结构,可生成分辨率高达1536³的PBR(物理基础渲染)纹理资产,支持复杂拓扑、锐利特征与多材质建模。其核心目标是通过单张图片或文本描述,快速生成工业级3D模型,降低3D内容创作门槛,推动游戏、影视、虚拟现实等领域的技术革新。TRELLIS.2 : 微软开源的40亿参数3D生成模型

功能特点

  • 高效生成:在英伟达H100 GPU上,仅需3秒即可生成512³分辨率的3D模型,支持从512³到1536³的多分辨率输出。
  • 复杂拓扑处理:突破传统等值面场限制,可稳健处理开放表面(如衣物、树叶)、非流形几何体和内部封闭结构,避免细节丢失。
  • 完整PBR材质建模:支持基础颜色、粗糙度、金属度、不透明度等属性建模,实现照片级真实感渲染和透明效果。
  • 极简数据处理:纹理网格与O-Voxel转换无需渲染或优化,单CPU上10秒内完成带纹理网格转换,CUDA反向转换仅需不到100毫秒。
  • 多模态输入:支持图像到3D生成和文本到3D生成,用户可通过图片或文字指令生成所需3D对象。

优缺点

  • 优点
    • 生成质量高:40亿参数模型结合稀疏3D VAE编码,实现16倍空间压缩,生成资产细节丰富、保真度卓越。
    • 效率领先:3秒生成512³模型,速度远超传统方法,适合快速原型制作。
    • 灵活性强:支持复杂拓扑、多材质和透明效果,满足多样化设计需求。
  • 缺点
    • 硬件依赖:高效生成需顶级显卡(如H100),普通设备性能受限。
    • 数据需求高:大规模预训练依赖海量3D数据,数据获取成本较高。

如何使用

  • 在线体验Demo:通过Hugging Face Space(https://huggingface.co/spaces/microsoft/TRELLIS.2)上传图片或输入文本,实时生成3D模型并预览效果。
  • 行业模板库:利用预置的游戏、影视、建筑等场景模板,快速生成定制化3D资产,支持团队协作优化。
  • 可视化工具:通过交互式界面调整材质属性(如粗糙度、金属度)、分辨率等参数,观察生成结果变化,辅助理解模型行为。

框架技术原理

  • O-Voxel稀疏体素结构:采用“无场”稀疏体素表示法,识别3D空间中的“活跃区”(含物体区域),集中算力处理,跳过空白区域,实现16倍空间压缩。
  • 稀疏3D VAE编码:将3D资产编码到紧凑潜在空间,结合标准扩散变换器(DiT)高效生成高分辨率、完全纹理化的资产。
  • 多任务联合训练:联合优化像素重建、语义理解、空间结构感知等目标,平衡底层细节与高层语义,避免过拟合。

创新点

  • 突破分词器扩展定律:首次证明分词器的参数、算力、数据规模扩展可显著提升3D生成性能,挑战传统“分词器扩展无效”认知。
  • 理解力驱动生成:将分词器升级为表征学习模型,通过语义理解和空间结构感知,生成更符合人类认知的3D内容。
  • 任意拓扑统一建模:O-Voxel结构实现复杂拓扑、锐利特征与完整PBR材质的统一建模,支持透明/半透明效果。

评估标准

  • 生成质量:采用gFID(生成图像与真实图像的Fréchet Inception Distance)衡量3D模型的逼真度和多样性。
  • 重建质量:使用rFID(重建图像与原始图像的Fréchet Inception Distance)评估信息保留能力。
  • 效率指标:测试生成速度(如512³模型生成时间)、空间压缩率(如16倍下采样)等。
  • 拓扑处理能力:通过复杂结构生成任务(如开放表面、非流形几何)验证模型稳健性。

应用领域

  • 游戏开发:快速生成高质量3D角色、道具和场景资产,降低独立游戏开发者和中小型工作室的制作成本与时间。
  • 影视制作:创建逼真的3D特效和虚拟场景,支持复杂材质和纹理,满足影视行业对视觉效果的高要求。
  • 虚拟现实(VR)与增强现实(AR):生成沉浸式3D环境和物体,加速虚拟世界构建。
  • 建筑设计与可视化:快速生成建筑模型和室内设计3D可视化,辅助设计方案评估。
  • 工业设计与产品开发:创建产品原型3D模型,加速设计迭代和虚拟展示。
  • 创意内容与社交媒体:普通用户可通过图片轻松创建专业级3D模型,用于短视频、AR滤镜等创意表达。

项目地址

© 版权声明

相关文章

暂无评论

暂无评论...