混元世界模型1.1 : 腾讯混元开源的3D世界生成模型

195 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

腾讯混元于2025年10月22日正式发布并开源混元世界模型1.1（WorldMirror），该模型为统一的前馈式3D重建基座大模型，首次支持从多视图图像或视频中一键生成3D世界，并实现单卡秒级推理。作为业界首个“多模态先验注入+多任务统一输出”的端到端模型，其突破了传统3D重建仅依赖单图或文本的局限，支持相机位姿、深度图等额外信息输入，输出点云、深度、表面法线及新视角合成等多样化3D几何结果，性能达行业领先水平。混元世界模型1.1 : 腾讯混元开源的3D世界生成模型

功能特点

多模态输入支持：
首次支持多视图图像、视频及相机位姿、深度图等多模态先验信息输入，通过动态先验注入机制灵活适应任意组合，提升复杂场景重建的鲁棒性。
多任务统一输出：
基于统一架构实现点云回归、多视角深度估计、相机参数预测、表面法线生成及3D高斯点渲染等任务，各任务通过端到端协同训练相互强化。
秒级高效推理：
采用纯前馈架构，单次正向传播即可输出所有3D属性，处理8-32视图输入仅需1秒，性能远超需迭代优化的传统方法。
高精度几何重建：
在3D点云重建任务中，表面平整度与场景规整性优于Meta的MapAnything模型；在端到端3D高斯重建中，几何精度与细节还原全面超越AnySplat模型。

优缺点

优点：

低部署门槛：单卡即可运行，支持消费级显卡部署，降低技术使用成本。
灵活性与通用性：兼容任意先验组合输入，输出任务覆盖全流程3D重建需求。
高渲染保真度：支持实时新视角渲染，3D高斯点属性预测提升场景真实感。

缺点：

复杂场景细节局限：在极端光照或非标准材质（如透明玻璃）的重建中仍存在细节丢失问题。
数据依赖性：高质量合成数据的需求可能限制低资源场景下的泛化能力。

如何使用

开发者部署：
克隆GitHub仓库（GitHub地址），按文档一键部署至本地环境。
普通用户体验：
通过HuggingFace Space在线体验（在线Demo），上传多视图图像或视频，实时预览3DGS渲染结果。
输入输出示例：
输入：8张欧洲小镇街角的多视角照片；输出：包含点云、深度图及可漫游3D场景的完整模型。

框架技术原理

多模态先验提示：
相机位姿与内参通过MLP投影为全局令牌，深度图通过卷积核生成空间对齐的密集令牌，与视觉特征融合，保留全局约束与局部细节。
通用几何预测架构：
基于Transformer骨干，使用DPT头进行密集预测（点云、深度、法线），通过Transformer层回归相机参数，3D高斯点属性通过可微光栅化器监督。
课程学习策略：
训练分三阶段递进：任务顺序（基础几何→表面属性→3DGS）、数据调度（多样化数据→高质量合成数据）、分辨率渐进（低→高），最大化泛化能力。