ICML 2025 用“人类考试法”戳破AI泡沫:构建能力导向的自适应测评新范式

随着大模型能力持续增强,仅通过观测各个 Benchmark 上的得分来判断一个模型是否真的聪明、值得信赖,可能远远不够。


你是否知道:


  • 评估一个大模型完整跑完一套标准测试(如 HELM),可能耗时超过 4000 GPU 小时、成本上万美元;

  • 工业界中的模型评估甚至要大量人类专家参与标注/评判;

  • 很多 Benchmark 中的题目质量可能并没有我们想象中那么可靠;

  • 即使模型准确率高达 99%,我们依然很难回答:它是靠实力答对的?题目太简单?还是训练时见过原题?

传统的大规模“刷题式”评估方式,已经难以满足如今通用人工智能的评估需求,尤其是认知能力的评估。


最近在 ICML 2025 会议上,一项由中国科学技术大学认知智能全国重点实验室加州大学伯克利分校美国教育考试服务中心 ETS 共同发布的立场论文(Position),基于上世纪就出现的心理测量学理论,提出一种 AI 评估的新思路:用评估人类的方式,来评估 AI 模型的能力

论文标题:

Position: AI Evaluation Should Learn from How We Test Humans

论文链接:

https://arxiv.org/abs/2306.10512



当前 AI 评估方式面临的困境

为了追求全面的评估,目前 AI 模型面对的是越来越大的“试卷”,Google BIG-bench 超过 200 个任务、HuggingFace Open LLM Leaderboard 更是包括 6 个场景下 29k 个题目。


目前主流的 AI 评估方案,简单直接:准备一个庞大全面的测试集,模型答题后按准确率等各类指标打分。但这种评估范式实际应用中却问题重重:


  • 成本:尤其针对大模型,评估涉及大量的计算成本、人工成本、时间成本;

  • 可靠性:大量题目存在重复/冗余、题目质量良莠不齐;

  • 安全性:很多测试题被模型“见过”或者“记住”了;

  • 可解释性:只观测到“做对多少题”,但不知道“能力强在哪儿”“能力有多强”。



心理测量学启发:用自适应测试精准测 AI 能力

在人类的 GRE、TOEFL 等考试早已采用基于心理测量学(Psychometrics)的自适应测试。这类测试认识到:每道题的重要性和信息价值都不同,可估计出每个题目的难度、区分度、猜测概率等统计特征,并且系统会根据考生表现动态分发题目,更精准评估能力。


换句话说,自适应测试关注的,不是模型答对了多少题,而是其它真正的能力边界。本立场论文提出:心理测量学这种起源于 20 世纪针对人类的测评技术,可以帮助解决如今 AI 评估的困境,重构能力评估机制



用心理测量学重构 AI 测评

3.1 能力导向:测出 AI 真正的“能力值”

传统的评估范式是分数导向(score-oriented)而自适应测试则是能力导向(ability-oriented),不是数对了多少题,而是构建 AI 能力分布模型,给出统计意义上的能力估计。具体优势为:


  • 高效性:精准选择高信息量题目,研究者发现可用不足 3% 的题量,即可还原完整 Benchmark 上的成绩(上图)

  • 可解释:建模模型能力与题目特征间的关联,如相同能力下难度越低答对概率越大,可解释分数背后的原因;认知诊断模型还支持建模AI的多维能力

  • 捕捉不确定性:模型行为可能受温度参数或 prompt 微小变化影响(例如人类考试时也会收到环境、心情波动等影响)

  • 可比较性:在统一尺度上对模型能力进行统计比较,甚至可跨 Benchmark 统一评估(如人类的 GRE 不同场次分数具可比性)

因此,心理测量可以将 AI 模型的表现映射为“能力参数”,进而分析模型擅长/薄弱在哪、稳不稳定、不确定性高不高。

3.2 不是所有的题目都是同样重要

很多人默认 Benchmark 中的测试题目是“准确、可靠、有价值”,但事实往往不是这样。不是所有题都值得出现在测试集中。心理测量学能够估计每个题目的特征,如难度(),区分度(),猜测系数()。

  • Benchmark 中每个题目的价值/重要性是不一样的,上图(a)展示 SSTB 情感分类数据集中两个题目估计出的难度差异,简单的题目中有明显的情感偏向词汇。

  • Benchmark 中可能出现低质量甚至是标注错误的题目,如上图(b)所示,在 SQuAD 阅读理解数据集中,有些题目的区分度极低,分析发现其参考答案甚至存在错误。

  • 部分题目易被“猜对”,无法真实考察能力。如上图(c)中 MedQA 医疗问答数据集的某题,即便模型缺乏医学知识,也可能仅凭常识猜对,这些题目的高猜测系数削弱了其评估价值。

3.3 大模型“偷看”过题目?数据污染识别

如今的大语言模型训练数据动辄覆盖全网,来源复杂,这带来了一个严重的问题:测试数据,很可能被模型在训练阶段“看”过。这被称之为数据污染(Data Contamination):模型在“考试”时,恰好碰上自己训练中“背过”的原题。这会造成什么影响?模型行为异常好,但并非出于理解,而是记忆;测试分数被大幅抬高,误判模型的真实水平;Benchmark 信用下滑,无法反映模型的泛化能力…


这就像,一场考试中,有考生提前拿到了原题,自然不能作为依据来判断他的水平。和人类教育体系一样,心理测量学中已经发展出一系列检测作弊或泄题的统计方法,已被证明能有效发现异常模式,并且现有很多针对 LLM 的污染检测方法也是基于如下思想(上图)。比如:


  • 高难题答对,低难题却答错,这是典型的表现异常

  • 模型频繁在“不可能答对的题”上答对,很可能就是“见过题”;

  • IRT 中的猜测系数异常偏高,说明模型无需理解也能答对,可能也说明是题目泄露。

此外,自适应测试还有一个天然优势:每个模型做的题不同,完整的测试集没有完全暴露,进一步降低了数据污染风险。这正是 GRE 等人类考试采用自适应测试机制的重要原因之一。



应用前景:建立 AI 时代的“心理测评框架”

该工作跨越人工智能、认知科学和标准化测评三大领域,试图为 AI 评估系统带来结构性优化。从能力评估,到偏好倾向、决策逻辑、稳定性与公平性,我们是否可以不再追求“大而全的测试集”,而是细致建模题目特征差异,洞察模型的表现与内在结构。它不仅适用于 Benchmark 构建与维护,也可能为未来AI部署前的风险评估、服务适配、安全验证等环节的提供支持。


这种“考 AI 方式与考人方式趋同”的变化,启发一种可能性:是否可以构建一个新学科方向——机器心理测量学(Machine Psychometrics)


总之,AI 模型越来越聪明,评测方法也要变得更聪明。我们用考察人类的方法,来考察 AI,用已被验证的科学理论重建评估系统,为通用人工智能时代建立精准且公正的能力测量范式。


作者介绍


庄严,博士研究生 3 年级,来自中国科学技术大学-认知智能全国重点实验室,师从刘淇教授。主要研究方向包括自适应测试与认知诊断理论、人工智能可信评估。

欢迎联系:zykb@mail.ustc.edu.cn


(文:PaperWeekly)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往