xbench

xbench 是红杉中国于2025年5月26日正式推出的一款AI基准测试工具，旨在为人工智能模型提供全面、标准化的评估方案。该工具由红杉中国联合国内外十余家顶尖高校和研究机构共同开发，采用双轨评估体系和长青评估机制，重点量化AI系统在真实场景中的效用价值，并长期捕捉Agent产品的关键突破。xbench 首期发布包含科学问题解答测评集（xbench-ScienceQA）与中文互联网深度搜索测评集（xbench-DeepSearch），并对该领域主要产品进行了综合排名。同期提出了垂直领域智能体的评测方法论，并构建了面向招聘和营销领域的垂类Agent评测框架。

功能特点

双轨评估体系
- xbench 采用双轨评估体系，构建多维度测评数据集，旨在同时追踪模型的理论能力上限与Agent的实际落地价值。该体系创新性地将评测任务分为两条互补的主线：
  - 评估AI系统的能力上限与技术边界；
  - 量化AI系统在真实场景的效用价值（Utility Value）。
- 针对真实场景的效用价值评估，xbench 基于实际工作流程和具体社会角色，为各垂直领域构建具有明确业务价值的测评标准。
长青评估机制
- xbench 采用长青评估（Evergreen Evaluation）机制，通过持续维护并动态更新测试内容，以确保时效性和相关性。红杉中国将定期测评市场主流Agent产品，跟踪模型能力演进，捕捉Agent产品迭代过程中的关键突破，进而预测下一个Agent应用的技术-市场契合点（TMF, Tech-Market Fit）。
多维度测评数据集
- xbench 覆盖多个技术领域，包括自然语言处理、计算机视觉和多模态分析，能够有效衡量不同模型的性能表现与应用场景适配性。
开源与社区共建
- xbench 欢迎社区共建，红杉中国向所有AI赛道从业人员发出邀请，欢迎他们成为使用并完善xbench的一份子，一起打造评估AI能力的新范式。

优缺点

优点

科学、长效的评测体系：xbench 构建了一个更加科学、长效和如实反映AI客观能力的评测体系，解决了传统基准测试工具无法真实反映AI系统能力的问题。
动态更新：通过长青评估机制，xbench 能够持续维护并动态更新测试内容，确保评测的时效性和相关性。
多维度评估：xbench 采用双轨评估体系，既评估AI系统的能力上限与技术边界，又量化AI系统在真实场景的效用价值，提供了更全面的评估视角。
开源与社区共建：xbench 欢迎社区共建，促进了AI评测领域的开放与合作。

缺点

评估结果的主观性：尽管xbench 致力于提供客观且可复现的评价结果，但评估结果仍可能受到评估标准、测试内容等因素的影响，存在一定的主观性。
动态更新的挑战：长青评估机制需要持续投入资源进行测试内容的维护与更新，这对红杉中国来说是一个长期的挑战。
社区共建的参与度：xbench 的社区共建模式需要吸引大量的AI赛道从业人员参与，但参与度的高低将直接影响xbench 的发展与应用。

主要应用场景

AI模型评估
- xbench 可用于评估不同AI模型的性能表现与应用场景适配性，为AI模型的研发与优化提供指导。
Agent产品评测
- xbench 构建了面向招聘和营销领域的垂类Agent评测框架，可用于评测Agent产品在特定垂直领域中的表现。
AI技术研发
- xbench 为AI技术研发人员提供了一个标准化的评估工具，有助于推动AI技术的突破与产品迭代。
AI投资决策
- 作为独立第三方的基准测试工具，xbench 可为AI投资决策提供客观的评估依据，降低投资风险。

如何使用 xbench

访问官网
- 用户可通过访问xbench.org网站，了解xbench的详细信息、评估方法论和评测结果。
下载评测集
- 用户可下载xbench发布的评测集，包括科学问题解答测评集（xbench-ScienceQA）与中文互联网深度搜索测评集（xbench-DeepSearch）等，用于对AI模型或Agent产品进行评测。
参与社区共建
- 用户可参与xbench的社区共建，与红杉中国及其他AI赛道从业人员一起完善xbench的评测体系与方法论。
获取评测结果
- 用户可通过xbench.org网站实时查看评测结果和方法论，了解不同AI模型或Agent产品在xbench评测中的表现。