你正在做的大模型评测，可能有一半都是无用功上海AI Lab&上交&浙大出品

上海AI Lab 投稿
量子位 | 公众号 QbitAI

评估多模态AI模型的那些复杂测试，可能有一半都是“重复劳动”！

来自上海AI Lab、上海交大以及浙江大学最新研究显示：当下流行的多模态大模型基准测试中普遍存在大量冗余。

△图表 1 Quick Look

他们在超过20个主流多模态基准和100多个模型做了系统性扫描，结果有一些有意思的发现。

比如实例分析中，许多基准测试将实例数量减少一半，也不会显著影响被测试MLLMs的排名。

而在具体任务中，像图像情感和社会关系这两大任务，他们评估能力存在显著的重叠。

而像名人识别这种基于知识的任务，与其他维度的任务保持相对独立。

研究方法

训练好的多模态大模型往往需要通过繁杂的基准测试才能让研究人员评估出其具体的性能。

但是在许多测试环节中，团队发现似乎多模态基准本身存在着明显的冗余性。

例如某些基准内的评测维度虽然名字叫法不同，但是测试的能力非常相似；

例如某些基准的评测实例可以视作“自我繁殖“，不同实例之间彼此高度相似，没有提供额外的评价信息；

例如某些垂类领域的多个不同的评测基准似乎彼此之间也较为类似。

于是，他们便开始尝试思索提出一个衡量多模态基准冗余度的框架。

首先，团队定义了三类冗余度：

1、基准内的子维度之间的冗余度；
2、基准内的测试实例的冗余度；
3、单个垂类领域内不同基准的冗余度。

从一个先验出发，当在测试类似的多模态大模型能力时，其性能排序应该存在较强的相关性；反之，如果其性能排序相关性较低，这也就意味着测试的性能具备较强的独立性。

基于上述先验，针对性给出了对应的冗余度框架。

△图表 2 冗余度计算框架示意图

基准内的子维度之间的冗余度。

假设我们在拥有m个子维度的基准上评测了一定数量的多模态大模型性能，并且我们记这些性能在这m个子维度上的排序为R1-Rm。那么任意两个维度之间的排序相似性就可以简单理解为这两个维度的冗余性。将所有的排序相似性遍历求和也就得到了此基准的平均冗余度。

基准内的测试实例冗余度。

假设某个基准共有着n个测试实例，并且在这个完整的基准上了我们评测了一定数量的多模态大模型并获得了最终的性能排序RGT，然后，我们随机抽取实例的一个子集，占总数的A%，并计算相应的MLLM性能排序，记为RA%。为了量化在A%抽样比率下基准测试的冗余，我们计算RA%与RGT之间的相关系数。这一相关性反映了抽样子集对整个基准测试的代表性。为了减少随机性的影响，抽样过程重复进行T=100次，并记录平均相关性结果。

单一垂类领域内的跨基准冗余

假设某个垂类领域内（例如专注做数学能力评测）有l个基准，我们在这些基准上测试了一定数量的多模态大模型性能，并获得了这些大模型在各个基准上的排序。那么针对于某个特定基准，其性能排序与其余基准排序的相关系数即可代表此基准在这个垂类领域内的冗余度，也可也理解为此基准对此垂类领域的代表程度。

相关性指标

在这项工作中，我们采用了多种指标来描述两组性能数字之间的相关性，包括斯皮尔曼排名相关系数（SRCC）、皮尔逊线性相关系数（PLCC）和R²分数。

SRCC 是一种评估指标，测量排名的相似性，捕捉两个排名之间相对顺序的一致程度。
PLCC 量化线性相似性，评估排名之间的线性关系紧密程度。
R²分数则评估排名关系解释的方差比例，作为拟合优度的衡量标准。

Top-K分析

考虑到顶级MLLMs的性能在基准测试中往往更受关注，我们可以通过仅关注给定基准测试中总体性能最高的Top-K MLLMs来简化冗余分析，而不是将所有MLLMs纳入计算。通过选择Top-K模型，我们可以更好地针对不同性能层级的基准测试冗余进行分析。

实验结果及分析

探索维度冗余

为了全面展示我们冗余框架在MLLM基准测试中的应用，我们使用广泛采用且维度多样的MMBench基准测试（v1.1）。其测试结果如图所示，我们可以得到一些有趣的结果。

△ 图表 3 MMBench Top-50 SRCC 子维度热图

根据图表3（Top-50 指总排名正数50的MLLMs性能排序），我们可以快速分析哪些维度表现出高相关性。

例如，任务图像情感和社会关系显示出强烈的冗余（0.59），表明它们评估的能力存在显著重叠。

同样，结构化图像-文本理解与多个其他维度（如空间关系物理属性推理（0.69）、OCR（0.56）和自然关系（0.49））表现出明显的冗余，这反映出执行结构化理解需要综合运用视觉解析、符号识别、常识推理等多重能力。

另一个有趣的见解来自名人识别，这是一个基于知识的任务，与主要测量感知能力的其他维度保持相对独立。因此，它表现出显著较低的冗余。

△ 图表 4 MMBench Bottom-50 SRCC 子维度热图

图表4（Bottom-50 指总排名倒数50的MLLMs性能排序）则揭示了截然不同的分布模式。

与Top-50模型平均维度冗余度相比，Bottom-50模型的平均维度冗余度显著增高，其中超过80%的维度对SRCC值超过0.6。这种系统性高冗余现象源于Bottom-50模型基础能力的整体薄弱性——当模型处于初级发展阶段时，各维度的性能改进呈现强同步性，导致维度区分度显著降低。

反观Top-50模型，由于已建立较完备的基础能力体系，其在不同复杂任务中的专项优化会引发维度表现的差异性增长，从而形成更清晰的维度区分特征。

探索实例冗余

△ 图表 5 Top-50 实例平均冗余度

△图表 6 Bottom-50 实例平均冗余度

在实验中他们纳入了VLMEvalKit中18个公开可用的基准测试的评估结果，并展示了随机采样实例得到的性能排序与采用全部实例排序的平均冗余度结果。

团队采用0.95的相似性阈值进行划分（SRCC和PLCC系数超过0.95的排名被认为几乎相同，仅在极少数情况下存在微小差异），这得出一个结论：大多数现有MLLM基准测试在对Top-50和Bottom-50 MLLMs进行排名时，其实例表现出显著冗余，至少50%的实例是冗余的。 这意味着许多基准测试可以将实例数量减少一半，而不会显著影响被测试MLLMs的排名。团队还比较了Top-50和Bottom-50 MLLMs之间的冗余趋势。

值得注意的是，在SRCC和PLCC的相同0.95阈值下，Bottom-50 MLLMs所需的实例数量显著少于Top-50 MLLMs。这意味着准确排名高性能MLLMs（Top-50）需要更多实例，而排名低性能MLLMs（Bottom-50）可以用更少的实例实现。

因此，基准测试实例的冗余与被评估MLLMs的能力密切相关： MLLMs能力越强，基准测试实例的冗余越低。

探索跨基准冗余

为了分析跨基准冗余，聚焦于数学领域，具体考察了几个流行的数学基准测试：MathVista、MathVision、MathVerse和DynaMath。

利用OpenCompass推理排行榜上列出的37个MLLMs的可用评估结果来进行分析。

△图表 7 数学领域内的跨基准冗余度热图

结果显示，尽管这四个基准测试都旨在评估MLLMs的数学能力，但它们之间的相关性并不算特别强。其中，MathVista表现出最少的冗余，与其他基准测试的相关性最低。相比之下，MathVerse和MathVision显示出高冗余，与其他基准测试表现出强相关性。这些差异表明它们的评估重点领域存在不同程度的重叠。

为了更好地理解基准测试之间的差异，团队分析了它们任务的分布。

结果发现MathVista包含30%-40%的非传统数学问题，例如与科学图表理解、通用VQA和图表/表格/图形问答相关的任务（示例见图表8）。

△图表 8 基准内偏离核心数学能力的样例

团队认为低冗余可能源于特定领域的独特元素或无关任务，并将后者视为数据中的“噪声”。

例如，通用VQA任务虽然广泛适用，但其与评估数学能力的关系有限，可以归类为这种噪声。

为了量化其影响，他们从MathVista中移除通用VQA任务，并重新计算其与其他基准测试的冗余。经过这一调整后，MathVista与其他数学基准测试之间的冗余显著增加，与它们任务特征的契合度更高。

此外，我们还排除了MathVista中分类数学目标VQA的CLEVR衍生问题，这些问题与数学能力的关系也有限（示例见图表8）。

经过处理，MathVista与其余基准的冗余度得到了进一步提高，也意味着处理后的MathVista更加专注在了“数学“能力的评测上。

因此，他们提出以下领域内基准设计的原则：

旨在代表某一垂类领域核心能力的基准应与其他领域内基准表现出相对高的冗余，反映对领域内核心能力的把握。
专注于独特的能力以填补垂类领域空缺的基准应与其他基准显示较低的冗余，从而为领域内特定主题提供独特视角。

总结

本文重点探索了MLLM基准测试中普遍存在的冗余问题，探索了三个层面识别了冗余：维度冗余、实例冗余和跨基准冗余。

通过提出的冗余度框架，可以为社区带来以下改进：

优化基准设计：

1). 确定基准内的某些维度是否需要单独评估，或者可以合并；
2). 识别准确评估所需的最小且足够的实例数量；
3). 评估在特定领域内引入新基准的必要性。

提升MLLM评估效率：

1). 确定某一基准是否偏离了领域的分布；
2). 识别评估领域内模型性能所需的锚定基准。

通过系统性地解决冗余问题，不仅可以提升基准设计的原则，还能减轻MLLM评估的资源需求，创造一个更精简有效的评估生态系统。

论文链接：
https://arxiv.org/abs/2501.13953
Github链接：https://github.com/zzc-1998/Benchmark-Redundancy

*本文系量子位获授权刊载，观点仅为原作者所有。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

—

（文：量子位）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

上海AI Lab 投稿量子位 | 公众号 QbitAI