VitaBench 2.0 : 美团 LongCat 推出的长期动态智能体评测基准

AI工具15小时前发布 FuturX-Editor
11 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

VitaBench(Versatile Interactive Tasks Benchmark)是美团 LongCat 团队于 2025 年 10 月正式发布的新一代大模型智能体评测基准,定位为高度贴近真实生活场景的长期动态交互式 Agent 评测平台。它以外卖点餐、餐厅就餐、旅游出行三大高频生活服务场景为载体,构建了包含 66 个可操作工具的交互式评测环境,设计了 400 项评测任务(300 项单场景 + 100 项跨场景),并首次从深度推理、工具使用、用户交互三大维度对智能体任务进行了量化拆解。实测数据显示,即便是 GPT-4 等当前顶尖推理模型,在复杂跨场景任务主榜中的成功率仅 30%,清晰揭示了现有智能体技术与真实应用需求之间的巨大鸿沟。VitaBench 已全面开源,涵盖项目主页、技术论文、代码仓库与数据集,为智能体研发提供了关键基础设施。VitaBench 2.0 : 美团 LongCat 推出的长期动态智能体评测基准

功能特点

维度 核心能力
三维复杂度框架 推理复杂度(信息整合量、部分可观测度、推理点数量)、工具复杂度(工具图大小与密度、调用链路长度)、交互复杂度(多轮对话深度、用户画像持久性、行为属性建模)
66 工具有向图 工具间依赖关系显式编码为有向图,领域规则嵌入图结构,无需冗余 Policy 文档,智能体自行推理领域逻辑
用户模拟器(User Simulator) 基于真实平台数据脱敏构建多样化用户画像,支持情绪建模(急躁/焦虑/冷漠)、交互模式建模(细节导向/依赖型/逻辑型)、动态意图演化
滑动窗口 + Rubric 评估 将任务目标拆解为原子化评估准则,带重叠滑动窗口扫描完整对话轨迹,捕捉不改变最终状态但关键的中间行为
跨场景任务 100 项跨场景任务要求智能体在外卖→餐饮→旅行等多领域间无缝切换,考察信息迁移与上下文保持能力
全量开源 项目主页、论文、GitHub 代码、HuggingFace 数据集、在线排行榜全部公开

优缺点

优点

  • 极度贴近真实:基于美团真实生活服务数据构建,不是实验室玩具,而是面向产业落地的评测
  • 三维量化拆解:首次将任务复杂度拆解为推理/工具/交互三个可度量维度,让”难在哪里”一目了然
  • 滑动窗口评估器:解决了传统基于最终状态比对无法捕捉过程行为的痛点,评估更精细
  • 工具图替代 Policy 文档:避免了冗长规则文档对模型探索的限制,更公平
  • 30% 成功率的现实拷问:用数据直指当前智能体的真实短板,比任何宣传都有说服力

缺点

  • 难度极高:顶尖模型成功率仅 30%,对中小团队不够友好,容易”一测就崩”
  • 计算成本不低:66 个工具 + 用户模拟器 + 长轨迹滑动窗口评估,运行开销较大
  • 场景仍集中在生活服务:虽然三维度框架可扩展,但当前任务主要覆盖外卖/餐饮/旅游,工业、金融等场景尚未纳入
  • 用户模拟仍是简化模型:User Simulator 基于语言模型驱动,与真实用户行为仍有差距

如何使用

  1. 访问项目主页:打开 https://vitabench.github.io,查看完整文档、排行榜和技术报告
  2. 查看排行榜:主页直接展示各模型在主榜(跨场景任务)和分榜(单场景/推理/工具/交互)上的排名和成功率
  3. 下载数据集:在 Hugging Face 获取 https://huggingface.co/datasets/meituan-longcat/VitaBench,包含 400 项任务的完整定义
  4. 运行评测(有代码能力时)
    • 克隆 GitHub 仓库:git clone https://github.com/meituan-longcat/vitabench
    • 按 README 配置环境,将你的 Agent 接入评测流水线
    • 运行评估脚本,系统自动输出三维分项得分 + 总体成功率
  5. 阅读论文:https://arxiv.org/abs/2509.26490,了解完整设计理念和实验细节

如果你只是想了解各模型表现,直接看主页排行榜即可,无需任何代码。

框架技术原理

VitaBench 的核心建模思路是将 Agent 与 User、Tool 的交互建模为部分可观测马尔可夫决策过程(POMDP),并在此基础上构建三维复杂度量化框架:

复杂度维度 量化指标 实现方式
推理复杂度 𝒞_reason 观测空间大小、部分可观测度、推理点数量 构建大规模真实环境数据库,单任务涉及 5-20 个服务商、超 100 个候选产品
工具复杂度 𝒞_tool 工具图大小与密度、调用链路长度、子图覆盖率 66 个工具构建为有向图,工具间依赖关系显式编码,Python 函数实现保证调用稳定性
交互复杂度 𝒞_interact 对话轮次、用户画像持久性、行为属性建模 User Simulator 扮演具有静态属性(年龄/职业/饮食限制)和动态行为(情绪/交互模式/意图漂移)的用户

评估器架构

任务目标 → 原子化 Rubric 拆解 → 滑动窗口(带重叠)扫描对话轨迹
                              每个窗口独立判断 Rubric 满足状态
                                         ↓
                              跨窗口一致性校验 → 最终评分

两阶段构建流程

  • 阶段一:定义 66 个工具 → 构建工具依赖有向图 → 实现 User Simulator
  • 阶段二:基于真实用户请求合成任务指令 → 结合真实数据扩展环境 → 人工多轮校验

创新点

  1. 首个三维量化复杂度框架:不再用”难/易”模糊描述,而是用可测量的指标定义推理/工具/交互三个维度的难度,让评测可复现、可对比
  2. 滑动窗口 + Rubric 评估器:传统评估只看最终状态是否达标,VitaBench 用原子化 Rubric + 滑动窗口捕捉全过程行为,解决了”推荐了但没下单”这类中间行为无法评估的问题
  3. 工具图替代 Policy 文档:将领域规则编码到工具依赖图中,智能体不依赖预设规则而是自行推理,避免了规则文档对模型探索空间的限制,也使基准更易扩展到新场景
  4. 动态用户模拟器:不是静态脚本,而是具备情绪变化、意图漂移、个性化偏好的 User Simulator,真正模拟真实交互的不确定性
  5. 30% 成功率的行业警钟:用统一框架下的硬数据证明,当前顶尖模型在真实复杂场景中仍然”一碰就抓瞎”,推动行业正视差距

评估标准

评估维度 子指标 说明
推理维度 观测空间大小 环境整体信息量,越大越难
部分可观测度 需通过交互才能获取的信息占比,越高越难
推理点数量 显性+隐性推理点总数,越多越难
工具维度 工具图大小与密度 涉及工具数量及依赖紧密程度
调用链路长度 完成任务所需的工具调用步骤数
子图覆盖率 调用链路占工具图的比例,越广越难
交互维度 对话轮次 平均 66 轮长对话,考验上下文保持
用户画像持久性 需持续记忆用户属性与偏好
行为属性建模 情绪变化、交互模式适配
综合评分 滑动窗口 Rubric 满足率 全满足或全不满足,严格标准

最终输出:主榜(跨场景综合成功率)+ 三个分榜(推理/工具/交互单项得分)+ 完整 Rubric 明细。

应用领域

领域 具体用途
智能体研发 定位模型短板——是推理不行、工具不行还是交互不行,精准迭代
模型选型 同一框架下公平对比不同模型,按业务场景选最合适的
生活服务 AI 外卖智能客服、餐厅预订助手、旅游规划 Agent 的研发与评测
跨场景任务规划 考察模型在多领域间的信息迁移与上下文保持能力
人机交互研究 多轮对话中的意图追踪、澄清策略、情绪适应等关键技术验证
学术研究 POMDP 建模、Rubric 设计、滑动窗口评估等方法论可迁移到其他评测场景

项目地址

资源 链接
🌐 项目主页 & 排行榜 https://vitabench.github.io
📄 技术论文 https://arxiv.org/abs/2509.26490
💻 GitHub 代码 https://github.com/meituan-longcat/vitabench
📊 HuggingFace 数据集 https://huggingface.co/datasets/meituan-longcat/VitaBench
© 版权声明

相关文章

暂无评论

暂无评论...