WBench : 美团推出的交互式视频世界模型多轮评测基准
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
WBench 是由美团 LongCat 团队与复旦大学联合推出的首个面向交互式视频世界模型的系统性多轮评测基准,于 2026 年 5 月底正式开源。它不是简单地评测视频生成质量,而是第一次在统一框架下,系统性地测试 AI 模型能否在多轮连续交互中持续维护一个可控、一致、符合物理逻辑的世界。过去的评测要么只看画质(如 VBench),要么只关注导航或自动驾驶等单一任务,而 WBench 填补了这一空白——它要求模型同时扮演渲染器、导演、控制器、记忆系统和物理引擎五种角色。完整测试集包含 289 个测试案例、1058 个交互轮次,覆盖 20 款主流模型(包括 Kling 3.0、Wan 2.7、Genie 3、HY-World 1.5 等),是目前最接近真实应用场景、最公平、最可信的世界模型评测基准。
功能特点
- 四大交互类型全覆盖:导航(WASD 移动)、主体动作(跳跃/开门等)、事件编辑(天气变化/物体出现)、视角切换(第一/第三人称转换)
- 双视角支持:同时支持第一人称(FPP,占 62%)和第三人称(TPP,占 38%),这在以往基准中极为少见
- 多轮连续交互:支持 2~9 轮交互,平均每个案例 3.7 轮,专门暴露长周期下的记忆和一致性问题
- 统一导航控制接口:将文本描述、相机姿态(6-DoF)、离散按键三种不同输入范式对齐到同一语义空间,让不同”出身”的模型能公平竞争
- 22 个自动子指标:覆盖五大评测维度,全部可自动化计算,且与人类偏好的 Spearman 相关系数 ≥ 0.94
- 全场景覆盖:包含自然、城市、室内、幻想等 6 大场景,以及写实、动漫、油画等多种视觉风格
优缺点
优点:
- 诊断性强:不只给总分,而是把渲染、设定、交互、记忆、物理五种能力拆开诊断,定位模型短板
- 公平性高:统一交互接口解决了不同模型输入范式不一致的难题,首次实现跨范式公平比较
- 贴近真实:多轮交互设计暴露了模型在连续操作中的真实表现,而非单轮”现编”
- 全面开源:代码、数据集、论文全部公开,可直接复现
缺点:
- 计算成本不低:依赖 MegaSaM、Depth Anything 3、SAM2、VLM 等多种视觉模型进行自动评分
- 视角切换依然极难:当前所有模型在该任务上平均分仅 30.7,说明基准本身也暴露了技术的天花板
- 开源或闭源并无绝对优势:各模型能力分布分散,选型仍需根据具体需求判断
如何使用
- 访问项目主页:打开 https://meituan-longcat.github.io/WBench/ 查看完整文档和评测结果
- 下载数据集:在 Hugging Face 上获取 https://huggingface.co/datasets/meituan-longcat/WBench
- 准备你的模型:WBench 支持三种输入范式——文本提示、相机位姿(6-DoF)、离散按键。你只需按模型原生接口准备输入即可,框架会自动对齐
- 运行评测:将模型输出的视频传入评测流水线,系统会自动从五个维度、22 个子指标给出评分和诊断报告
- 查看结果:获得类似”体检报告”的详细分析——模型在画质、导航、一致性、物理合规性等维度分别表现如何,哪里是短板一目了然
如果你是普通用户而非开发者,最简单的方式就是去项目主页看20 个模型的横评排行榜,直接了解谁在哪个维度最强。
框架技术原理
WBench 的核心逻辑可以用一个公式表达:
o_{t+1} ∼ f_θ(o_{t+1} | o_{≤t}, a_{≤t})
即模型根据历史观测和所有历史动作,预测下一帧观测。每个测试案例被拆为两部分:
- 世界设置(World Setting):定义初始状态——场景、风格、视角、主体
- 交互序列(Interaction Sequence):用户在 T 轮中给出的控制信号
评测流水线组合了多种视觉工具:
| 工具 | 用途 |
|---|---|
| MegaSaM | 估计相机位姿,计算导航轨迹误差(nATE) |
| Depth Anything 3 | 深度估计,判断空间一致性 |
| SAM2 | 主体跟踪,检测主体外观漂移 |
| TransNetV2 | 检测视频片段间的硬切 |
| DINOv2 / CLIP | 计算语义相似度 |
| VLM(Qwen3-VL 等) | 判断设定遵循、因果合理性、物理合规性 |
导航评估还引入了自适应参考轨迹机制:按模型预测的运动幅度动态调整参考轨迹,减少空间尺度偏好带来的评分偏差。
创新点
- 首个多轮交互基准:不是单轮生成,而是 2~9 轮连续交互,专门测试模型的”世界记忆”能力
- 世界设定与用户指令彻底解耦:先定义世界,再设计交互,让初始设定失效、动作执行失败、多轮一致性崩塌的来源都能被分开观察
- 跨范式统一评测:将文本/相机/按键三种输入对齐到同一语义,首次让文本驱动模型和相机控制模型在同一条起跑线上比较
- 导航与画质解耦的发现:实验证明模型的导航能力与画质几乎无关(相关系数接近零),暗示未来世界模型需要独立的几何感知模块
- 诊断式而非排序式:目标不是给一个排名,而是告诉研究者”模型到底卡在哪里”
评估标准
| 维度 | 子指标数 | 核心考察内容 |
|---|---|---|
| 视频质量 | 6(VBench 5 项 + HPSv3-Norm) | 美学、清晰度、流畅度、时序闪烁、运动平滑度、人类偏好 |
| 设定遵循度 | 2(VLM 驱动) | 场景还原度、主体还原度——模型是否忠实于初始设定 |
| 交互遵循度 | 核心指标 | 导航轨迹误差(nATE)、动作是否真实发生、事件是否正确执行 |
| 一致性 | 多项 | 空间几何一致性、主体外观一致性——多轮后是否”穿帮” |
| 物理合规性 | 2(因果忠实度 + 视觉合理性) | 碰撞、流体、重力等是否符合常识,利用 fine-tuned Qwen3-VL 判断 |
共 5 大维度、22 个自动子指标,自动评分与人类判断的 Spearman ρ ≥ 0.94。
应用领域
- 模型研发:定位训练短板——是画质不行、控制不行、记忆不行还是物理不行
- 模型选型:在不同交互范式之间做公平比较,按业务需求选最合适的模型
- 可交互视频生成:游戏式世界生成、AI 虚拟空间搭建
- 机器人模拟环境:需要维持长期空间一致性的仿真训练
- 自动驾驶:导航能力评测可直接迁移
- AI 虚拟人/数字人:多轮交互中保持主体一致性是刚需
项目地址
| 资源 | 链接 |
|---|---|
| 📄 论文 | https://huggingface.co/papers/2605.25874 |
| 🏠 项目主页 | https://meituan-longcat.github.io/WBench/ |
| 💻 GitHub 代码 | https://github.com/meituan-longcat/WBench |
| 📊 数据集 | https://huggingface.co/datasets/meituan-longcat/WBench |
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...