红杉中国发布 xbench，首个由投资机构打造的 AI 基准测试

随着基础模型的快速发展和 AI Agent 进入规模化应用阶段，被广泛使用的基准测试（Benchmark）却面临一个日益尖锐的问题：想要真实地反映 AI 的客观能力正变得越来越困难。

因此，构建更加科学、长效和如实反映 AI 客观能力的评测体系，正在成为指引 AI 技术突破与产品迭代的重要需求。

有鉴于此，红杉中国今天正式推出一款全新的AI基准测试工具 xbench，并发布论文《xbench: Tracking Agents Productivity，Scaling with Profession-Aligned Real-World Evaluations》。

在评估和推动 AI 系统提升能力上限与技术边界的同时，xbench 会重点量化 AI 系统在真实场景的效用价值，并采用长青评估的机制，去捕捉 Agent 产品的关键突破。（点击文末【阅读原文】即可下载阅读本论文，建议使用电脑端进行下载）

摘要

• xbench 采用双轨评估体系，构建多维度测评数据集，旨在同时追踪模型的理论能力上限与 Agent 的实际落地价值。该体系创新性地将评测任务分为两条互补的主线：（1）评估 AI 系统的能力上限与技术边界；（2）量化 AI 系统在真实场景的效用价值（Utility Value）。其中，后者需要动态对齐现实世界的应用需求，基于实际工作流程和具体社会角色，为各垂直领域构建具有明确业务价值的测评标准。

• xbench 采用长青评估（Evergreen Evaluation）机制，通过持续维护并动态更新测试内容，以确保时效性和相关性。将定期测评市场主流 Agent 产品，跟踪模型能力演进，捕捉 Agent 产品迭代过程中的关键突破，进而预测下一个 Agent 应用的技术-市场契合点（TMF，Tech-Market Fit）。作为独立第三方，红杉中国致力于为每类产品设计公允的评估环境，提供客观且可复现的评价结果。

• 首期发布包含两个核心评估集：科学问题解答测评集（xbench-ScienceQA）与中文互联网深度搜索测评集（xbench-DeepSearch），并对该领域主要产品进行了综合排名。同期提出了垂直领域智能体的评测方法论，并构建了面向招聘（Recruitment）和营销（Marketing）领域的垂类 Agent 评测框架。评测结果和方法论可通过 xbench.org 网站实时查看。

• 在过去两年多的时间里，xbench 一直是红杉中国在内部使用的跟踪和评估基础模型能力的工具，今天红杉中国将其公开并贡献给整个 AI 社区。无论你是基础模型和 Agent 的开发者，还是相关领域的专家和企业，或者是对 AI 评测具有浓厚兴趣的研究者都欢迎你加入，成为使用并完善 xbench 的一份子，一起打造评估 AI 能力的新范式。

xbench Dual-track Leaderboard 2025.05

为什么现在需要新的 Eval 系统

2022 年 ChatGPT 推出后，红杉中国开始对 AGI 进程和主流模型实行每个月的评测与内部汇报。

2023 年 3 月，红杉中国开始建设 xbench 的第一批私有题库，题目类型主要针对 Chatbot 简单问答及逻辑思考，如：

· “香蕉的平方根是多少？”

· “小明立志成为最成功的投资人，经过一番努力，最终他成功了。请问用什么谚语描述这个情况比较适合？”

红杉中国见证了主流模型从 20-30 分，在 18 个月内，提升到 90-100 分。2024 年 10 月，红杉中国第二次比较大规模地更新了 xbench 题库，换掉了所有模型都得满分的题，新题主要针对 Chatbot 复杂问答及推理，以及简单的模型外部工具调用能力（tool use），如：

· “设f(x)是一个奇函数，而g(x)是一个偶函数。那么，f(f(g(f(g(f(x))))))是奇函数、偶函数还是都不是？”

· “Q：将/nt目录下所有符合‘result_*.txt’格式的文件，按*数字从小到大的顺序，合并到一个文件中。并且命名为‘results_total.txt’。”

红杉中国再次见证了主流模型的进步，这一次的速度更快，主流模型在 6 个月内“刷爆”了第二期题库。

评估的有效时间在急剧缩短。

图源：姚顺雨个人博客

2025 年 3 月，红杉中国开始第三次对 xbench 题库进行升级，但这一次，开始停下来质疑现有评估方式，思考两个核心问题：

1/ 模型能力和 AI 实际效用之间的关系：出越来越难的题目意义是什么，是否落入了惯性思维？AI 落地的实际经济价值真的和 AI 会做难题正相关吗？举个例子，程序员工作的 Utility Value 很高，但 AI 做起来进步非常快，而“去工地搬砖”这样的工作 AI 却几乎无法完成。

2/ 不同时间维度上的能力比较：每一次 xbench 换题，便失去了对 AI 能力的前后可比性追踪，因为在新的题集下，模型版本也在迭代，无法比较不同时间维度上的单个模型的能力如何变化。在判断创业项目的时候，喜欢看创业者的“成长斜率”，但在评估 AI 能力这件事上，却因为题库的不断更新而无法有效判断。

接下来应该怎么做评估？

为了应对上述两个核心问题，红杉迫切需要构建新的评估平台，并重点面向：

■ 打破惯性思维，为现实世界的实用性开发新颖的任务设置和评估方式

以“Search”能力为例，AI 能力评估集的进化路径可能是：

Single-turn QA→Search→Deep Search（Multi-step Reasoning）→Deeper Search（Multi-hop or Chained Reasoning）

如果我们跳脱出“研究视角”惯性，转向“市场与业务视角”，任务和环境的多样性会爆炸式增长，Search 类的题就会变成：

→Marketing→KOL Search→ “一家智能投影仪品牌计划在中东市场进行内容投放，目标人群为 35 岁以下、有独立居住空间的科技早期用户，主要通过生活方式类博主触达。AI Agent 需完成：①在中英文多平台上识别优质创作者，判断其内容调性是否贴近‘居家娱乐+智能家居’；②预测不同地区（如迪拜与利雅得）的 CTR 差异；③辅助完成组合推荐。”→$6,000（人工完成该任务需 3 名中东本地营销人员，约耗时 1 周，总成本约$6,000（$2,000/人/周））

→Recruiting→People Search→ “一家头部 VC 支持的多模态大模型初创公司，正在寻找一位‘具备高质量开源项目经验、熟悉 transformer 架构、曾在 FAIR 或 DeepMind 实习/合作过’的AI工程负责人。目标候选人不一定在招聘平台上活跃，大部分信息分布在 GitHub、arXiv、X（原Twitter）、海外社区论坛中。AI Agent 需完成：①跨平台搜索与聚合；②候选人背景重建（教育、项目、实习）；③对技术契合度自动评分；④生成 Cold outreach 策略邮件草稿。”→¥9,000（人工完成该任务，通常需 1 名高级猎头+1 名技术研究员，耗时约1周，人力总成本约¥9,000）

下半场的评估，不仅需要越来越难的 AI Search 能力的考察基准（AI Capabilities Evals），也需要一套对齐现实世界专家的实用性任务体系（Utility Tasks）。前者考察的是能力边界，呈现是 Score，而后者考察的是实用性任务和环境多样性、商业 KPIs（Conversion Rate、Closing Rate）和直接的经济产出。

红杉引入 Profession Aligned 的基准概念，认为接下来的评估会分为 AGI tracking 与 Profession Aligned，AI 将面临更多复杂环境下效用的考察，从业务中收集的动态题集，而不单是更难的智力题。

■ 建立长青评估体系

静态评估集一旦面世，会出现题目泄露导致过拟合然后迅速失效的问题。红杉中国将维护一个动态更新的题目扩充评估集来缓解这一现象。

针对 AI Capacity Evals：学术界提出了很多出色的方法论，但是受限于资源与时间不充分，无法维护成动态扩充的持续评估。红杉中国希望能延续一系列公开评估集的方法，并提供第三方、黑白盒、Live 的评测。

针对 Profession Aligned Evals：希望建立从真实业务中 Live 收集机制，邀请各行业的职业专家与红杉中国共同构建和维护行业的动态评估集。

同时，在动态更新的基础上，红杉中国设计可横向对比的能力指标，用于在时间上观察到排名之外发展速度与关键突破的信号，帮助红杉中国判断某个模型是否达到市场可落地阈值，以及在什么时间点上，Agent 可以接管已有的业务流程，提供规模化服务。

面向真实世界的动态评估，

Live Evaluations for Agents

Agent 评测的双轨路径

红杉中国推出 xbench 双轨系列评估集，分为xbench-AGI Tracking与xbench-Profession Aligned。将 AGI Tracking 评测视为 Agent 应用落地的基础台阶，而 Profession Centric 评测则是对接真实生产场景的高阶实践。

AGI track 评测旨在验证模型在特定能力维度上是否从 0 到 1 具备了智能表现，这类评测的关键是要足够难和巧妙、足够有区分度，来挖掘“智能”而非“系统”的边界。只有当某个 AI 关键能力在 AGI Tracking 中实现从 0 到 1 的突破，才可能进一步解锁更多专业工作流程，进入 Profession Aligned 评测的范畴。

Profession Aligned 评测则聚焦于现实生产场景，是把 Agent 当成一个数字员工放在具体业务流程里来进行考察。其评估核心并非智能存在与否，而是在真实场景下的交付结果和商业价值。Profession Aligned 可以有很多类型应用来解决，评估不会限定解决方案，只会考核结果。另外，Profession Aligned 评估从对生产力的需求出发，是定义垂类应用/寻找垂类 AI 解决方案，即使这个场景应用还没有做出来。

以营销和人力资源场景为例，通过对 xbench AGI track 中 xbench-DeepSearch 评测指标追踪，认为 AI search 这一关键模型能力正在快速成熟，寻找简历、分析候选人匹配度，在各大平台上寻找 KOL、分析 KOL 与需求的匹配度，都是潜在 AI 能实现的工作流。于是开始构建 xbench-Profession-Recruitment 及 xbench-Profession-Marketing 希望对齐 Agent 业务落地价值，预测 TMF 的时间点。

在 AI Search 之外，随着 AI 关键能力可预见的拓展至多模态理解和生成，营销素材的生产和投放会被纳入可能达到 TMF 的环节-进入 Profession Aligned 评估的测试范围内。同样，应用于 recruiting 时，senior recruiter 的工作流不局限于 people search、people evaluation，更难的在于对候选人长期维护和沟通甚至是薪酬谈判和达成交易环节——这里 AI 具备长期记忆、竞争和决策博弈等核心职能，也是下一个阶段关键智能的突破方向，红杉中国会持续监测关键能力突破并增加 Profession-Aligned 测评的丰富度。

以 AI 关键能力为中心的评估（AGI Tracking）

2023-2024 年大模型在知识、多模态、记忆、指令遵循与推理能力上取得显著突破，这些突破的积累造成了 Agent 应用能力的爆发——但仍然在长期记忆、可信度、问题发现、多智能体协作与博弈能力等上存在短板。希望抓住 AI 尚未充分解决的核心能力，构建并持续维护对应的评估集。

红杉中国相信针对这些关键能力，学术界提出了很多出色的方法论，但是受限于资源与时间不充分，无法维护成持续评测、动态扩充的评估。红杉中国希望能延续一系列公开评估集的方法，并提供第三方、黑白盒、Live 的评测。

把 Agent 能力拆分成基础智能、专业实践能力、创新能力与组织能力，每个层级中会拆分出构成实现 AGI 的关键要素。AI 的发展不一定是从基础到高阶的顺序进行，可以预见的是，在 AI 获取了组织能力后依然存在基础可信度的问题。

这一次发布的xbench-ScienceQA与xbench-DeepSearch评估属于 Knowledge 与 Tool Use 的子类别，测试 Agent 在这两项主能力分类下的子任务能力。后续会围绕这些关键问题持续发布新的评估，并追踪市面产品的表现。

■ xbench-ScienceQA: 考察基础智能-知识

该评测集用于测试研究生水平的学科知识和推理能力。红杉中国收集可靠、多领域、高等教育难度、搜索引擎上缺少的、答案明确的高质量题目数据。已有的相关评估集如 GPQA、SuperGPQA 等获得了很大认可与关注，但他们均为一次性发布，缺少定期更新的机制。无法有效检查评估集泄露的程度。

红杉中国希望建设出一个按照季度更新的 ScienceQA 题目数据，并每月持续汇报最新模型的能力表现，每季度更新一次。邀请来自顶级院校的博士研究生以及资深行业专家出题，并采用 LLM 难度检验、搜索引擎检验、同行检验等方式确保题目的公正性、区分度与正确性。

■ xbench-DeepSearch ：考察专业生产力-工具使用

自主规划（Planning）→信息收集（Search）→推理分析（Reasoning）→总结归纳（Summarization）的深度搜索能力是 AI Agents 通向 AGI 的核心能力之一，也给评估带来了更难的挑战。基于简单事实的评估集如 SimpleQA、Chinese SimpleQA 能够评估信息收集能力，但缺乏对自主规划和推理分析能力的考察；基于前沿科学的评估集如 HLE、AIME 擅长考察模型的推理分析能力，但弱于自主规划和信息收集能力的度量。为了更好的考察 Agents 的深度搜索能力，红杉中国推出并开源了 xbench-DeepSearch 评测集，具备以下特点：

• 适应中文互联网环境，降低搜索信息源对结果的影响；

• 难度高，要求 Agent 具备规划+搜索+推理+总结的端到端综合能力；

• 所有题目经由人工出题并交叉验证，保证题目的新颖性，答案的正确性和唯一性，方便自动化评测；

• 持续更新，每月持续汇报最新模型的能力表现，每季度更新一次评估集。

红杉中国认为 2025 年会见证 AI 更多在基础智能与专业生产力上的进展，今年的后续评估中会关注：

1. 具有思维链的多模态模型能否生成商用水平视频？（多模态，推理，工具使用）

2. MCP 工具大面积使用是否具有可信度问题？（工具使用，可信度）

3. GUI Agents 能否有效使用动态更新/未训练的应用？（工具使用，测试时学习）

以专业工作为中心的评估（Profession Aligned）

追求与真实世界任务对齐是目前 AI 评估的核心诉求，这里提出以专业工作为中心的构建方法。

已有的真实世界评估通常是以 AI 能力为中心，去广泛地覆盖不同场景与领域，这对于指导通用模型的迭代非常有价值。然而 Agent 应用通常需要解决垂类场景任务，并针对垂类需求进行定制设计，此时通用评估结果的参考价值下降。

红杉中国看到在 Coding、客服与医疗领域出现高质量的评估，并带动了对应专业 Agent 能力的快速演进与产品化。专业中心的评估会快速在更多领域延展开，其占主流 AI 评估的比重也会快速提升。

面向专业工作的评估是希望从特定职业专家出发，分析它自身的工作流与思维模式，构建出与专家行为对齐的任务、执行环境与验证方式，流程如下图所示：

xbench Profession Aligned 的构建遵循如下三条核心原则：

• 评估由需求定义：针对一个职业构建评估集，优先梳理其业务流程与任务分类，聚焦于可评估的任务项。对于部分暂不可评估的任务，通过模拟方式转化为可评估形式。

• 评估任务随时间逐渐产生的从专家业务中 Live 收集：任务并非“出题”生成，而是在专家日常业务中逐步积累与收集。对于动态变化的任务，持续从真实业务流中获取与市场最贴近的评估内容。

• 领域价值驱动评估目标：每项任务标注专家完成所需时间，并结合薪资基准估算任务的经济价值。每个任务预设 TMF 目标，一旦 Agent 达标则停止更新，Profession-Aligned 的评估难度追求实际匹配，而不是持续变难。

这里以招聘专家为例，设计 xbench-Profession-Recruitment。

通过与多家头部猎头企业合作，梳理专家每周工作在不同任务上的时间分配。并让专家对这些任务的重要性进行评估，筛选出领域工作的拆分图谱。

下面是一个结构化的工作任务拆解和经济价值的对齐，以及对任务在现阶段可实现性和可评测性的梳理：

在每个单项任务中，从现有技术角度分析其可测性与可行性。第一期 xbench-Profession-Recruitment 收录了 JD 需求拆解、人才画像定位、候选人经历补全、人物关系理解、公开人才搜索等几类任务。

红杉中国与专业猎头公司，以及具有充分历史业务数据积累的营销企业分别共建了 xbench-Profession-Recruitment 与 xbench-Profession-Marketing 这两个评估任务。你可以点击文末【阅读原文】，在论文中看到更多结果。

以实际生产力需求为出发点，通过上述方法论，联合行业专家拆解专业工作流程形成任务，定义客观、可复现的评价指标，逐个构建 Profession Aligned 的评估集，先于垂类应用定义出能力目标，用 eval 指导 profession agent 的落地。预计将陆续拓展至金融（Finance）、法律（Law）、销售（Sales）等高价值专业领域的评估任务体系构建。欢迎来自相关领域的专家学者、产业企业、研究机构参与共建，共同推进 Profession-Aligned Eval 的发展。

长青评估

（Evergreen Eval）

评估有生命周期的任务与产品

静态评估集会出现题目泄露的问题。如 LiveBench 与 LiveCodeBench 评估的出现，利用动态更新的题目扩充评估集，缓解了题目泄露的问题，然而，在 Agent 应用的评估任务中仍有新挑战。

首先，Agent 应用的产品版本是具有生命周期的。Agent 产品的迭代速度很快，会不断集成与开发新功能，而旧版本 Agent 可能会被下线。虽然可以在同一时间测试同类 Agent 不同产品的能力，但是不能比较不同时间的产品能力进步。

同时，Agent 接触的外部环境也是动态变化的。即使是相同的题目，如果解题需要使用互联网应用等内容快速更新的工具，在不同时间测试效果不同。

上述表格展示了针对 Agent 的 Live 评测可获取的结果。利用该结果可以得到同期不同产品的排名，但是由于评估环境与任务的调整，不同期评测之间的能力增长是没有捕捉到的。因此希望解决如下问题：

评估集与模型不断迭代情况下，设计指标追踪 Agent 能力的持续增长。

统计上，可以针对残缺得分矩阵估计每个 Agent 版本的能力主成分。采用项目反应理论（Item Response Theory, IRT）完成对 Agent Capability 的估计。IRT 理论把被测对象能力，题目难度以及题目区分度按照如下模型建模，被测对象在测试题目上的得分为：

这个公式满足题目得分概率是 [0,1] 之间的取值，更大的难度系数会降低得分概率，而强的能力系数则会提升得分概率。对于区分度更大的题目，通常伴随能力增长更加平缓，意味题目能区分更广泛能力的评测对象。

使用 OpenCompass 动态更新的评估结果来验证 IRT 方法（https://rank.opencompass.org.cn/leaderboard-llm/?m=25-01）。该榜单从 2024 年 2 月开始，每隔 1-3 个月更新一次题库并发布评估结果，下面左图展示了不同模型在评估时间评测的得分，相同系列模型被同一颜色的线进行连接。虽然榜单结果很好显示了每次评估时模型能力排序，但因为题目更新，不同时间模型得分时不具有可对比性。

而利用 IRT 估计的能力得分，则可以很好地体现模型能力持续增长的趋势。可以观察到 2024 年 10 月之后 Google Gemini 模型能力的快速跟进，以及 Deepseek v2 与 r1 发布所带来的两次明显提升。

在后续的 Agent 评估中，会持续汇报 Agent 评估集不同产品的 IRT 能力得分，用于在时间上观察到排名之外发展速度与关键突破的信号。

评估 Agent 的技术市场匹配（Tech-Market Fit）

成本也是 Agent 应用落地的决定性因素之一。

Inference Scaling 让模型与 Agent 可以通过投入更多推理算力来取得更好的效果。这种投入既可以来自于强化学习带来的更长思维链，也可以是在思维链的基础上引入更多次数的推理与汇总进一步提升效果。

然而在现实任务中需要考虑 Inference Scaling 带来的投入产出比，找到在花费、延迟与效果上的平衡。类似于 ARC-AGI，会追求为每个评估集汇报在效果-成本图上的需求曲线、人类能力曲线以及现有产品的最优供给曲线。

在 Benchmark 的得分-成本图上，可以划分出左上区域的市场接受区与右下的技术可行区。人力成本应当是市场接受区边缘的一部分。左图展示了技术尚未落地的状态，而中间图展示了 TMF 后的状态，而其中交叉部分是 AI 带来的增量价值。对于具有 TMF 的 AI 场景，人力资源应当更多投入在领域的前沿以及不可评估的任务，并且市场会因为人力资源与 AI 算力的稀缺性不同重新给人类贡献的价值定价。

红杉中国认为每个专业领域会经历 3 个阶段：

1. 未达成 TMF：技术可信与市场接受区域没有交集，此时 Agent 应用仅是工具或概念，无法交付结果或规模化产生价值；Agent 对人的影响较小。

2. Agent 与 Human 共同工作：技术可信与市场接受区域发生交集，交叉区域是AI带来的价值增量，包括（1）以低于最低人类成本提供可行服务，（2）帮助提升应对重复性、质量要求中等的工作内容。而高水准的工作内容，由于数据稀缺、难度更高、依然需要人来执行，此时由于稀缺性，企业获取的 AI Profit 可能会被用于支付高端工作产出。

3. 专业化 Agent：领域专家在构建评估体系，并指引 Agent 迭代。专家的工作从交付结果转向构建专业评估训练垂类 Agents，并提供规模化服务。

其中从 1. 向 2. 的转变是由AI技术突破、算力与数据的 Scaling 带来的，而 2. 转向 3. 的进展依赖于熟悉垂类需求、标准、历史经验的专家。

此外，在部分领域中，AI可能带来新的满足需求的方式，改变已有的业务流程和生产关系组成方式。

AI 可能会带来价值转移、改变人力需求的结构，相信社会会因为更高效的生产效率与商业模式增加人类的总体福利。

（文：特工宇宙）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复