Solaris ：谢赛宁研究团队开源的多人视频世界生成模型

4 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

Solaris 是全球首个开源的多人视频世界模型，由纽约大学助理教授谢赛宁团队于2026年3月正式发布。该模型基于昆仑天工开源的 Matrix-Game 2.0 框架构建，专注于解决多人协同感知与动态交互的难题。通过引入创新的“多人自注意力机制”，Solaris 实现了多玩家视角下的物理一致性、场景连贯性及高效信息交换，为开放世界游戏、元宇宙社交、工业仿真等领域提供了技术基石。 Solaris ：谢赛宁研究团队开源的多人视频世界生成模型

功能特点

多视角同步生成：支持同时生成多个玩家的第一人称视角视频，确保视角间时空逻辑自洽。
物理一致性保障：精准复现重力、碰撞等物理规则，避免多人交互中的视觉崩塌（如建筑结构错位）。
高效信息交换：通过“多人自注意力层”动态建模玩家间空间关系，推理延迟控制在200毫秒内（16人以上场景）。
长时序交互能力：可生成长达30分钟的连贯视频，场景一致性指标达98.7%，较传统方案提升3.2倍。
数据驱动优化：基于1264万帧多人《我的世界》数据集训练，覆盖建筑、战斗、探索等632万帧丰富场景。

优缺点

优点：
- 技术突破性：首次实现多人视频世界的协同感知，填补交互式生成模型领域空白。
- 开源生态：开放核心代码、预训练模型及全流程工具包，降低开发者门槛。
- 商业潜力：获图灵奖得主杨立昆领衔的AMI公司10.3亿美元融资，估值达35亿美元，计划应用于工业仿真、数字孪生等领域。
缺点：
- 训练成本高：依赖大规模多人数据集，数据采集与标注成本较高。
- 泛化能力待验证：当前主要在《我的世界》中验证，复杂现实场景适应性需进一步测试。

如何使用

场景生成：输入各玩家历史观察与动作数据，模型联合预测未来多视角视频。
协同训练：利用生成的视频数据训练机器人决策模型，优化多智能体协作策略。
虚拟仿真：部署至工业仿真平台，模拟多人协作设计（如建筑行业）或远程手术场景。
娱乐应用：集成至开放世界游戏，支持玩家体验真实的多人互动与共同建造。

框架技术原理

Solaris 以 Matrix-Game 2.0 为技术底座，通过以下创新实现多人建模：

扩展动作空间：增加全量《我的世界》输入维度，支持复杂操作（如方块放置、战斗）。
多人自注意力层：拼接所有玩家Token，通过共享自注意力模块交换信息，动态建模空间关系。
3D旋转位置编码（RoPE）：为每名玩家独立应用RoPE，并添加可学习玩家ID嵌入，区分个体行为。
流匹配与扩散强迫训练：结合流匹配（Flow Matching）与扩散强迫（Diffusion Forcing），保持玩家间观察一致性。

创新点

原生多人架构：从底层重构模型架构，以多人协同感知为设计核心，而非简单扩展单人模型。
动态信息交换网络：通过“多人自注意力机制”实现毫秒级响应，突破传统方案的信息交换瓶颈。
数据采集系统：自主开发 SolarisEngine，支持协调多智能体交互与同步视觉捕捉，创建首个带动作标注的多人世界模型训练数据集。
轻量化部署：优化模型结构，目标将推理延迟压缩至80毫秒以内，适配端侧实时应用。

评估标准

场景一致性：通过建筑结构维护、玩家视角对齐等指标，评估多人交互中的物理真实性。
长时序能力：测试30分钟持续交互中的场景连贯性，计算画面崩塌频率。
推理效率：以A800 GPU为基准，对比推理速度与显存占用。
泛化性能：验证模型在不同玩家数量、任务类型（如建造、战斗）下的适应能力。
视觉质量：采用FID（Fréchet Inception Distance）指标衡量生成视频的逼真度。

应用领域

开放世界游戏：支持多人在线协作建造、战斗等复杂交互，提升游戏沉浸感。
元宇宙社交：构建虚拟演唱会、远程协作空间等场景，实现多用户实时互动。
工业仿真：模拟多人协作设计流程，优化建筑、制造等行业的生产效率。
数字孪生：生成高保真虚拟环境，用于自动驾驶训练、机器人群体协作测试。
医疗教育：构建虚拟手术室，支持医学生进行多角色配合演练。

项目地址

项目主页：https://solaris-wm.github.io/
引擎代码：https://github.com/solaris-wm/solaris-engine
模型代码：https://github.com/solaris-wm/solaris
数据集链接：https://huggingface.co/collections/nyu-visionx/solaris-data

# AI工具

文章版权归作者所有，未经允许请勿转载。

Grok 4.20 ： xAI 推出的新一代多智能体 AI 模型

FuturX-Editor

271 0

Grok Code Fast 1 ： xAI推出的AI编程模型

FuturX-Editor

569 0

GDPVAL ： OpenAI开源的AI模型经济价值评估框架

FuturX-Editor

479 0

TesserAct：AI 4D具身世界模型，能预测3D场景的动态演变

FuturX-Editor

603 0

Step-Audio-R1.1 ：阶跃星辰开源的原生语音推理模型

FuturX-Editor

257 0

Pocket Flow：开源的轻量级AI应用开发框架，仅用100行代码实现

FuturX-Editor

586 0

暂无评论

暂无评论...

Solaris ：谢赛宁研究团队开源的多人视频世界生成模型

主要介绍

功能特点

优缺点

如何使用

框架技术原理

创新点

评估标准

应用领域

项目地址

Kairos 3.0-4B ：大晓机器人开源的具身原生世界模型

InternVL-U – 上海AI Lab等开源的多模态一体化模型

相关文章

暂无评论

相关文章

Solaris ： 谢赛宁研究团队开源的多人视频世界生成模型

主要介绍

功能特点

优缺点

如何使用

框架技术原理

创新点

评估标准

应用领域

项目地址

Kairos 3.0-4B ： 大晓机器人开源的具身原生世界模型

InternVL-U – 上海AI Lab等开源的多模态一体化模型

相关文章

暂无评论

相关文章

Solaris ：谢赛宁研究团队开源的多人视频世界生成模型

Kairos 3.0-4B ：大晓机器人开源的具身原生世界模型