Yume1.5 : 上海AI Lab联合复旦开源的交互式世界生成模型

200 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

Yume1.5是由上海人工智能实验室与复旦大学联合研发的交互式世界生成模型，旨在通过单张图像或文本提示生成逼真、连续且可交互的虚拟世界。该模型突破了传统视频生成技术的局限性，支持实时探索与动态编辑，用户可通过键盘控制视角移动，触发文本定义的事件（如“幽灵出现”），生成无限长且连贯的视频内容。其核心目标是为虚拟现实、游戏开发、影视制作等领域提供高效、可控的生成工具。 Yume1.5 : 上海AI Lab联合复旦开源的交互式世界生成模型

功能特点

多模态生成：支持文本到世界（Text-to-World）、图像到世界（Image-to-World）及基于文本的事件编辑三种模式。
实时交互：通过键盘输入（如WASD键移动、箭头键控制视角）实现虚拟世界的动态探索。
长视频连贯性：采用联合时空通道建模（TSCM）技术，保持长时间生成中的视觉与逻辑一致性。
文本控制事件：支持用户通过文本指令触发特定事件（如天气变化、物体出现），增强交互性。
高效渲染：在单卡GPU上实现12 FPS的实时渲染，平衡质量与性能。

优缺点

优点：

交互性强：首次实现键盘控制与文本事件生成的深度融合，用户可自由探索并干预虚拟世界。
生成质量高：通过TSCM与Self-Forcing技术，减少长序列生成中的误差累积，保持画面稳定。
通用性广：支持真实场景、动画、游戏截图等多类型输入，泛化能力强。

缺点：

硬件要求较高：实时渲染需中高端GPU支持，低端设备可能体验受限。
复杂场景细节不足：在极端动态场景（如大规模人群运动）中，细节还原度仍有提升空间。

如何使用

在线体验：通过项目官网或Hugging Face Spaces直接调用API，输入文本或上传图像生成虚拟世界。
本地部署：
- 下载预训练模型与推理脚本（支持量化版本以降低显存占用）。
- 使用可视化工具（如ComfyUI插件）加载模型，通过图形界面输入指令并生成视频。
集成到现有系统：通过提供的SDK或API服务，嵌入到游戏引擎、VR/AR设备或影视制作软件中。