FantasyWorld : 高德地图联合北邮推出的3D世界建模框架

AI工具15小时前发布 FuturX-Editor
5 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

FantasyWorld是高德地图(AMAP)与北京邮电大学联合研发的创新性3D世界建模框架,旨在通过统一的视频生成与3D预测技术,构建高几何一致性的虚拟世界。该框架突破了传统视频生成模型在空间理解上的局限,实现了从单张图像、文本描述或相机轨迹输入中,直接生成具备真实光照、纹理和物理运动规律的3D场景。其核心目标是为AR/VR内容创作、机器人导航、数字孪生等领域提供低成本、高效率的空间建模解决方案。FantasyWorld : 高德地图联合北邮推出的3D世界建模框架

功能特点

  1. 几何一致性生成:通过联合建模视频潜变量与隐式3D场,确保生成场景在多视角(如180度旋转)下仍保持物体形状、纹理和空间关系的稳定性。
  2. 高效前向传播:采用预处理模块(PCBs)与集成重建生成模块(IRG),仅需单次前向计算即可完成视频生成与3D场景推断,避免传统方法中逐场景优化的耗时过程。
  3. 多模态输入支持:支持图像、文本、相机轨迹等多种输入方式,用户可通过自然语言描述或交互式轨迹规划生成定制化3D场景。
  4. 跨分支监督机制:通过几何线索指导视频生成,同时利用视频先验约束3D预测,实现视频与3D信息的交互优化,提升生成结果的可泛化性。
  5. 轻量化部署:基于冻结的视频基础模型(如阿里云Wan 2.1)扩展几何分支,减少计算资源消耗,支持实时应用场景。

优缺点

  • 优点
    • 空间保真度高:在WorldScore评测中,光度一致性得分达93.58分,显著优于同类模型(如TeleWorld的88.82分),有效解决“空间崩塌”问题。
    • 生成效率高:无需多视角拍摄或后处理,单次输入即可生成视频与3D模型,适用于大规模场景快速构建。
    • 应用场景广泛:支持AR/VR内容创作、机器人导航、数字孪生、游戏开发等多领域需求。
  • 缺点
    • 长序列生成受限:当前模型仅支持固定长度片段生成,扩展至连续长程合成需引入缓存或流式机制。
    • 极端场景适应性待提升:在复杂动态环境(如快速移动物体)中,几何一致性可能受影响,需进一步优化。

如何使用

  1. 输入准备
    • 上传一张首帧图像(如街道照片)或录制一段短视频作为场景基础。
    • 通过文本描述补充细节(如“添加树木和行人”)。
    • 规划相机轨迹(如从地面仰视建筑)。
  2. 生成与导出
    • 框架自动处理输入数据,生成3D一致的视频与隐式3D模型。
    • 导出深度图、点云或可直接渲染的3D网格,用于AR/VR应用或机器人路径规划。
  3. 交互优化
    • 通过拖拽、旋转等操作调整视角,实时预览生成效果。
    • 利用文本指令修正细节(如“调整建筑颜色为蓝色”)。

框架技术原理

FantasyWorld采用非对称双分支架构:

  1. 想象先验分支:继承预训练视频模型(如Wan 2.1)的生成能力,通过自注意力机制捕捉时空特征,生成逼真纹理与光影。
  2. 几何一致分支:通过全局注意力与帧间注意力机制,捕捉空间关系与帧间一致性,输出深度图、点云等几何表示。
  3. 跨分支融合:通过轻量适配器与双向交叉注意力机制,实现视频先验与几何约束的深度交互,确保生成结果在像素级与结构级均保持一致。

创新点

  1. 视频与3D联合建模:首次将视频潜变量与隐式3D场联合建模,弥合视频想象与3D感知的鸿沟。
  2. 零样本推理能力:基于大规模视频-3D数据对训练,无需逐场景优化即可直接生成3D场景。
  3. 多模态条件优化:结合图像、文本、相机轨迹等多模态输入,提升生成结果的可控性与多样性。

评估标准

FantasyWorld在斯坦福WorldScore评测基准中表现优异,核心指标包括:

  • 光度一致性:评估画面光影过渡自然度(得分93.58)。
  • 物体控制精度:衡量对场景中特定物体的操作准确性(得分87.75)。
  • 几何保真度:通过深度图、点云误差评估空间结构准确性。
  • 多视角连贯性:在大视角变化(如180度旋转)下保持物体形状与纹理一致。

应用领域

  1. AR/VR内容创作:生成逼真的虚拟环境,支持沉浸式体验开发。
  2. 机器人导航:提供精确的3D环境感知与路径规划,助力智能交互。
  3. 数字孪生:构建城市、建筑的高精度3D模型,用于规划与管理。
  4. 游戏开发:快速生成高质量3D游戏场景,降低开发成本。
  5. 飞行街景:商家上传视频生成3D虚拟漫游街景,提升用户预览体验。

项目地址

© 版权声明

相关文章

暂无评论

暂无评论...