Solaris : 谢赛宁研究团队开源的多人视频世界生成模型
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
Solaris 是全球首个开源的多人视频世界模型,由纽约大学助理教授谢赛宁团队于2026年3月正式发布。该模型基于昆仑天工开源的 Matrix-Game 2.0 框架构建,专注于解决多人协同感知与动态交互的难题。通过引入创新的“多人自注意力机制”,Solaris 实现了多玩家视角下的物理一致性、场景连贯性及高效信息交换,为开放世界游戏、元宇宙社交、工业仿真等领域提供了技术基石。
功能特点
- 多视角同步生成:支持同时生成多个玩家的第一人称视角视频,确保视角间时空逻辑自洽。
- 物理一致性保障:精准复现重力、碰撞等物理规则,避免多人交互中的视觉崩塌(如建筑结构错位)。
- 高效信息交换:通过“多人自注意力层”动态建模玩家间空间关系,推理延迟控制在200毫秒内(16人以上场景)。
- 长时序交互能力:可生成长达30分钟的连贯视频,场景一致性指标达98.7%,较传统方案提升3.2倍。
- 数据驱动优化:基于1264万帧多人《我的世界》数据集训练,覆盖建筑、战斗、探索等632万帧丰富场景。
优缺点
- 优点:
- 技术突破性:首次实现多人视频世界的协同感知,填补交互式生成模型领域空白。
- 开源生态:开放核心代码、预训练模型及全流程工具包,降低开发者门槛。
- 商业潜力:获图灵奖得主杨立昆领衔的AMI公司10.3亿美元融资,估值达35亿美元,计划应用于工业仿真、数字孪生等领域。
- 缺点:
- 训练成本高:依赖大规模多人数据集,数据采集与标注成本较高。
- 泛化能力待验证:当前主要在《我的世界》中验证,复杂现实场景适应性需进一步测试。
如何使用
- 场景生成:输入各玩家历史观察与动作数据,模型联合预测未来多视角视频。
- 协同训练:利用生成的视频数据训练机器人决策模型,优化多智能体协作策略。
- 虚拟仿真:部署至工业仿真平台,模拟多人协作设计(如建筑行业)或远程手术场景。
- 娱乐应用:集成至开放世界游戏,支持玩家体验真实的多人互动与共同建造。
框架技术原理
Solaris 以 Matrix-Game 2.0 为技术底座,通过以下创新实现多人建模:
- 扩展动作空间:增加全量《我的世界》输入维度,支持复杂操作(如方块放置、战斗)。
- 多人自注意力层:拼接所有玩家Token,通过共享自注意力模块交换信息,动态建模空间关系。
- 3D旋转位置编码(RoPE):为每名玩家独立应用RoPE,并添加可学习玩家ID嵌入,区分个体行为。
- 流匹配与扩散强迫训练:结合流匹配(Flow Matching)与扩散强迫(Diffusion Forcing),保持玩家间观察一致性。
创新点
- 原生多人架构:从底层重构模型架构,以多人协同感知为设计核心,而非简单扩展单人模型。
- 动态信息交换网络:通过“多人自注意力机制”实现毫秒级响应,突破传统方案的信息交换瓶颈。
- 数据采集系统:自主开发 SolarisEngine,支持协调多智能体交互与同步视觉捕捉,创建首个带动作标注的多人世界模型训练数据集。
- 轻量化部署:优化模型结构,目标将推理延迟压缩至80毫秒以内,适配端侧实时应用。
评估标准
- 场景一致性:通过建筑结构维护、玩家视角对齐等指标,评估多人交互中的物理真实性。
- 长时序能力:测试30分钟持续交互中的场景连贯性,计算画面崩塌频率。
- 推理效率:以A800 GPU为基准,对比推理速度与显存占用。
- 泛化性能:验证模型在不同玩家数量、任务类型(如建造、战斗)下的适应能力。
- 视觉质量:采用FID(Fréchet Inception Distance)指标衡量生成视频的逼真度。
应用领域
- 开放世界游戏:支持多人在线协作建造、战斗等复杂交互,提升游戏沉浸感。
- 元宇宙社交:构建虚拟演唱会、远程协作空间等场景,实现多用户实时互动。
- 工业仿真:模拟多人协作设计流程,优化建筑、制造等行业的生产效率。
- 数字孪生:生成高保真虚拟环境,用于自动驾驶训练、机器人群体协作测试。
- 医疗教育:构建虚拟手术室,支持医学生进行多角色配合演练。
项目地址
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...