VitaBench 2.0 : 美团 LongCat 推出的长期动态智能体评测基准
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
VitaBench(Versatile Interactive Tasks Benchmark)是美团 LongCat 团队于 2025 年 10 月正式发布的新一代大模型智能体评测基准,定位为高度贴近真实生活场景的长期动态交互式 Agent 评测平台。它以外卖点餐、餐厅就餐、旅游出行三大高频生活服务场景为载体,构建了包含 66 个可操作工具的交互式评测环境,设计了 400 项评测任务(300 项单场景 + 100 项跨场景),并首次从深度推理、工具使用、用户交互三大维度对智能体任务进行了量化拆解。实测数据显示,即便是 GPT-4 等当前顶尖推理模型,在复杂跨场景任务主榜中的成功率仅 30%,清晰揭示了现有智能体技术与真实应用需求之间的巨大鸿沟。VitaBench 已全面开源,涵盖项目主页、技术论文、代码仓库与数据集,为智能体研发提供了关键基础设施。
功能特点
| 维度 | 核心能力 |
|---|---|
| 三维复杂度框架 | 推理复杂度(信息整合量、部分可观测度、推理点数量)、工具复杂度(工具图大小与密度、调用链路长度)、交互复杂度(多轮对话深度、用户画像持久性、行为属性建模) |
| 66 工具有向图 | 工具间依赖关系显式编码为有向图,领域规则嵌入图结构,无需冗余 Policy 文档,智能体自行推理领域逻辑 |
| 用户模拟器(User Simulator) | 基于真实平台数据脱敏构建多样化用户画像,支持情绪建模(急躁/焦虑/冷漠)、交互模式建模(细节导向/依赖型/逻辑型)、动态意图演化 |
| 滑动窗口 + Rubric 评估 | 将任务目标拆解为原子化评估准则,带重叠滑动窗口扫描完整对话轨迹,捕捉不改变最终状态但关键的中间行为 |
| 跨场景任务 | 100 项跨场景任务要求智能体在外卖→餐饮→旅行等多领域间无缝切换,考察信息迁移与上下文保持能力 |
| 全量开源 | 项目主页、论文、GitHub 代码、HuggingFace 数据集、在线排行榜全部公开 |
优缺点
优点:
- 极度贴近真实:基于美团真实生活服务数据构建,不是实验室玩具,而是面向产业落地的评测
- 三维量化拆解:首次将任务复杂度拆解为推理/工具/交互三个可度量维度,让”难在哪里”一目了然
- 滑动窗口评估器:解决了传统基于最终状态比对无法捕捉过程行为的痛点,评估更精细
- 工具图替代 Policy 文档:避免了冗长规则文档对模型探索的限制,更公平
- 30% 成功率的现实拷问:用数据直指当前智能体的真实短板,比任何宣传都有说服力
缺点:
- 难度极高:顶尖模型成功率仅 30%,对中小团队不够友好,容易”一测就崩”
- 计算成本不低:66 个工具 + 用户模拟器 + 长轨迹滑动窗口评估,运行开销较大
- 场景仍集中在生活服务:虽然三维度框架可扩展,但当前任务主要覆盖外卖/餐饮/旅游,工业、金融等场景尚未纳入
- 用户模拟仍是简化模型:User Simulator 基于语言模型驱动,与真实用户行为仍有差距
如何使用
- 访问项目主页:打开 https://vitabench.github.io,查看完整文档、排行榜和技术报告
- 查看排行榜:主页直接展示各模型在主榜(跨场景任务)和分榜(单场景/推理/工具/交互)上的排名和成功率
- 下载数据集:在 Hugging Face 获取 https://huggingface.co/datasets/meituan-longcat/VitaBench,包含 400 项任务的完整定义
- 运行评测(有代码能力时):
- 克隆 GitHub 仓库:
git clone https://github.com/meituan-longcat/vitabench - 按 README 配置环境,将你的 Agent 接入评测流水线
- 运行评估脚本,系统自动输出三维分项得分 + 总体成功率
- 克隆 GitHub 仓库:
- 阅读论文:https://arxiv.org/abs/2509.26490,了解完整设计理念和实验细节
如果你只是想了解各模型表现,直接看主页排行榜即可,无需任何代码。
框架技术原理
VitaBench 的核心建模思路是将 Agent 与 User、Tool 的交互建模为部分可观测马尔可夫决策过程(POMDP),并在此基础上构建三维复杂度量化框架:
| 复杂度维度 | 量化指标 | 实现方式 |
|---|---|---|
| 推理复杂度 𝒞_reason | 观测空间大小、部分可观测度、推理点数量 | 构建大规模真实环境数据库,单任务涉及 5-20 个服务商、超 100 个候选产品 |
| 工具复杂度 𝒞_tool | 工具图大小与密度、调用链路长度、子图覆盖率 | 66 个工具构建为有向图,工具间依赖关系显式编码,Python 函数实现保证调用稳定性 |
| 交互复杂度 𝒞_interact | 对话轮次、用户画像持久性、行为属性建模 | User Simulator 扮演具有静态属性(年龄/职业/饮食限制)和动态行为(情绪/交互模式/意图漂移)的用户 |
评估器架构:
任务目标 → 原子化 Rubric 拆解 → 滑动窗口(带重叠)扫描对话轨迹
↓
每个窗口独立判断 Rubric 满足状态
↓
跨窗口一致性校验 → 最终评分
两阶段构建流程:
- 阶段一:定义 66 个工具 → 构建工具依赖有向图 → 实现 User Simulator
- 阶段二:基于真实用户请求合成任务指令 → 结合真实数据扩展环境 → 人工多轮校验
创新点
- 首个三维量化复杂度框架:不再用”难/易”模糊描述,而是用可测量的指标定义推理/工具/交互三个维度的难度,让评测可复现、可对比
- 滑动窗口 + Rubric 评估器:传统评估只看最终状态是否达标,VitaBench 用原子化 Rubric + 滑动窗口捕捉全过程行为,解决了”推荐了但没下单”这类中间行为无法评估的问题
- 工具图替代 Policy 文档:将领域规则编码到工具依赖图中,智能体不依赖预设规则而是自行推理,避免了规则文档对模型探索空间的限制,也使基准更易扩展到新场景
- 动态用户模拟器:不是静态脚本,而是具备情绪变化、意图漂移、个性化偏好的 User Simulator,真正模拟真实交互的不确定性
- 30% 成功率的行业警钟:用统一框架下的硬数据证明,当前顶尖模型在真实复杂场景中仍然”一碰就抓瞎”,推动行业正视差距
评估标准
| 评估维度 | 子指标 | 说明 |
|---|---|---|
| 推理维度 | 观测空间大小 | 环境整体信息量,越大越难 |
| 部分可观测度 | 需通过交互才能获取的信息占比,越高越难 | |
| 推理点数量 | 显性+隐性推理点总数,越多越难 | |
| 工具维度 | 工具图大小与密度 | 涉及工具数量及依赖紧密程度 |
| 调用链路长度 | 完成任务所需的工具调用步骤数 | |
| 子图覆盖率 | 调用链路占工具图的比例,越广越难 | |
| 交互维度 | 对话轮次 | 平均 66 轮长对话,考验上下文保持 |
| 用户画像持久性 | 需持续记忆用户属性与偏好 | |
| 行为属性建模 | 情绪变化、交互模式适配 | |
| 综合评分 | 滑动窗口 Rubric 满足率 | 全满足或全不满足,严格标准 |
最终输出:主榜(跨场景综合成功率)+ 三个分榜(推理/工具/交互单项得分)+ 完整 Rubric 明细。
应用领域
| 领域 | 具体用途 |
|---|---|
| 智能体研发 | 定位模型短板——是推理不行、工具不行还是交互不行,精准迭代 |
| 模型选型 | 同一框架下公平对比不同模型,按业务场景选最合适的 |
| 生活服务 AI | 外卖智能客服、餐厅预订助手、旅游规划 Agent 的研发与评测 |
| 跨场景任务规划 | 考察模型在多领域间的信息迁移与上下文保持能力 |
| 人机交互研究 | 多轮对话中的意图追踪、澄清策略、情绪适应等关键技术验证 |
| 学术研究 | POMDP 建模、Rubric 设计、滑动窗口评估等方法论可迁移到其他评测场景 |
项目地址
| 资源 | 链接 |
|---|---|
| 🌐 项目主页 & 排行榜 | https://vitabench.github.io |
| 📄 技术论文 | https://arxiv.org/abs/2509.26490 |
| 💻 GitHub 代码 | https://github.com/meituan-longcat/vitabench |
| 📊 HuggingFace 数据集 | https://huggingface.co/datasets/meituan-longcat/VitaBench |
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...