FantasyWorld ：高德地图联合北邮推出的3D世界建模框架

AI工具2个月前发布 FuturX-Editor

141 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

FantasyWorld是高德地图（AMAP）与北京邮电大学联合研发的创新性3D世界建模框架，旨在通过统一的视频生成与3D预测技术，构建高几何一致性的虚拟世界。该框架突破了传统视频生成模型在空间理解上的局限，实现了从单张图像、文本描述或相机轨迹输入中，直接生成具备真实光照、纹理和物理运动规律的3D场景。其核心目标是为AR/VR内容创作、机器人导航、数字孪生等领域提供低成本、高效率的空间建模解决方案。 FantasyWorld ：高德地图联合北邮推出的3D世界建模框架

功能特点

几何一致性生成：通过联合建模视频潜变量与隐式3D场，确保生成场景在多视角（如180度旋转）下仍保持物体形状、纹理和空间关系的稳定性。
高效前向传播：采用预处理模块（PCBs）与集成重建生成模块（IRG），仅需单次前向计算即可完成视频生成与3D场景推断，避免传统方法中逐场景优化的耗时过程。
多模态输入支持：支持图像、文本、相机轨迹等多种输入方式，用户可通过自然语言描述或交互式轨迹规划生成定制化3D场景。
跨分支监督机制：通过几何线索指导视频生成，同时利用视频先验约束3D预测，实现视频与3D信息的交互优化，提升生成结果的可泛化性。
轻量化部署：基于冻结的视频基础模型（如阿里云Wan 2.1）扩展几何分支，减少计算资源消耗，支持实时应用场景。

优缺点

优点：
- 空间保真度高：在WorldScore评测中，光度一致性得分达93.58分，显著优于同类模型（如TeleWorld的88.82分），有效解决“空间崩塌”问题。
- 生成效率高：无需多视角拍摄或后处理，单次输入即可生成视频与3D模型，适用于大规模场景快速构建。
- 应用场景广泛：支持AR/VR内容创作、机器人导航、数字孪生、游戏开发等多领域需求。
缺点：
- 长序列生成受限：当前模型仅支持固定长度片段生成，扩展至连续长程合成需引入缓存或流式机制。
- 极端场景适应性待提升：在复杂动态环境（如快速移动物体）中，几何一致性可能受影响，需进一步优化。

如何使用

输入准备：
- 上传一张首帧图像（如街道照片）或录制一段短视频作为场景基础。
- 通过文本描述补充细节（如“添加树木和行人”）。
- 规划相机轨迹（如从地面仰视建筑）。
生成与导出：
- 框架自动处理输入数据，生成3D一致的视频与隐式3D模型。
- 导出深度图、点云或可直接渲染的3D网格，用于AR/VR应用或机器人路径规划。
交互优化：
- 通过拖拽、旋转等操作调整视角，实时预览生成效果。
- 利用文本指令修正细节（如“调整建筑颜色为蓝色”）。

框架技术原理

FantasyWorld采用非对称双分支架构：

想象先验分支：继承预训练视频模型（如Wan 2.1）的生成能力，通过自注意力机制捕捉时空特征，生成逼真纹理与光影。
几何一致分支：通过全局注意力与帧间注意力机制，捕捉空间关系与帧间一致性，输出深度图、点云等几何表示。
跨分支融合：通过轻量适配器与双向交叉注意力机制，实现视频先验与几何约束的深度交互，确保生成结果在像素级与结构级均保持一致。

创新点

视频与3D联合建模：首次将视频潜变量与隐式3D场联合建模，弥合视频想象与3D感知的鸿沟。
零样本推理能力：基于大规模视频-3D数据对训练，无需逐场景优化即可直接生成3D场景。
多模态条件优化：结合图像、文本、相机轨迹等多模态输入，提升生成结果的可控性与多样性。

评估标准

FantasyWorld在斯坦福WorldScore评测基准中表现优异，核心指标包括：

光度一致性：评估画面光影过渡自然度（得分93.58）。
物体控制精度：衡量对场景中特定物体的操作准确性（得分87.75）。
几何保真度：通过深度图、点云误差评估空间结构准确性。
多视角连贯性：在大视角变化（如180度旋转）下保持物体形状与纹理一致。

应用领域

AR/VR内容创作：生成逼真的虚拟环境，支持沉浸式体验开发。
机器人导航：提供精确的3D环境感知与路径规划，助力智能交互。
数字孪生：构建城市、建筑的高精度3D模型，用于规划与管理。
游戏开发：快速生成高质量3D游戏场景，降低开发成本。
飞行街景：商家上传视频生成3D虚拟漫游街景，提升用户预览体验。

项目地址

官网：https://fantasy-amap.github.io/fantasy-world/
arXiv论文：https://arxiv.org/pdf/2509.21657

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Make-It-Animatable —— 中科大联合腾讯推出的自动生成即时动画准备资产

FuturX-Editor

843 0

Hunyuan-GameCraft：腾讯混元交互式游戏视频生成框架深度解析

FuturX-Editor

810 0

VRAG-RL：阿里通义推出的多模态RAG推理框架

FuturX-Editor

706 0

EvoCUA ：美团开源的通用多模态计算机操作模型

FuturX-Editor

215 0

GLM-4-Voice——智谱AI推出的端到端情感语音模型

FuturX-Editor

822 0

DeepSeek登顶中美AppStore！全过程要点分析→

FuturX-Editor

744 3

暂无评论

暂无评论...

AI全网资源导航每日收集国内外热点AI/人工智能/工具/模型/框架以及最新的AI学习资料/课程等，在这个全新的AI时代，助力每一个人，赋能每一个具体业务场景，与所有人一起努力向前！

友链申请免责声明广告合作关于我们

Copyright © 2026 AI智库导航-aiguide.cc 沪ICP备2022030655号