
极市导读
港中文MMLab提出一个新基准测试框架MME-CoT,用于全面评估大型多模态模型在视觉推理任务中的链式思考能力。通过涵盖数学、科学、OCR、逻辑、时空和通用场景的六个领域,MME-CoT从推理质量、鲁棒性和效率三个维度细粒度评估模型性能,揭示了现有模型在长CoT推理中的不足,并为未来多模态推理模型的发展提供了重要参考。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

论文:https://arxiv.org/pdf/2502.09621
主页:https://mmecot.github.io
代码:https://github.com/CaraJ7/MME-CoT
数据集:https://huggingface.co/datasets/CaraJ/MME-CoT
1、背景
大语言模型(LLMs)中链式思维(Chain-of-Thought, CoT)的出现展示了超强的推理能力,这一点在最近的OpenAI o1和DeepSeek-R1中都得到了充分体现。然而,这一能力能多大程度地帮助视觉推理,并且我们又应该如何细粒度地评估视觉推理呢?
为此,来自港中文MMLab的研究者们提出了MME-CoT。这是一个全面且专门用于评估LMMs中视觉推理能力的Benchmark,包括了数学、科学、OCR、逻辑、时空和通用场景。MME-CoT与之前的LMM的Benchmark最大的区别在于,提出了一个严格且多方面的评估框架,细粒度地研究视觉CoT的不同方面,评估其推理的质量、鲁棒性和效率。
各种最新推出的LMM,包括Kimi k1.5, GPT-4o, QVQ等等都在MME-CoT上进行了测试。同时,研究者们还把图片转成caption之后测试了最近爆火的DeepSeek-R1以及o3-mini。基于实验结果,文章中得到了很有价值的结论和insight:
-
CoT质量:Kimi k1.5 > DeepSeek-R1 >> o3-mini
CoT鲁棒性:o3-mini > Kimi k1.5 > DeepSeek-R1
CoT效率:o3-mini > Kimi k1.5 > DeepSeek-R1
值得一提的是,DeepSeek-R1的文本推理能力非常出众。仅仅使用图片的caption就可以在precision上超过真实看到图片的GPT-4o。最后的CoT质量也与GPT-4o仅有1.9%之差。
-
其次,反思能力的引入显著提升了CoT质量,所有具备反思能力的LMM都实现了较高的CoT质量表现。例如QVQ达到了62.0%的F1分数,大幅超过Qwen2-VL-72B 6.8%。而Kimi k1.5更是超越GPT-4o达到最佳质量。
-
在鲁棒性方面,我们发现大多数早期模型在感知任务中都受到CoT的负面影响,表现出有害的过度思考行为,其中最显著的案例是InternVL2.5-8B,在感知任务中应用CoT后性能下降了6.8%,这严重制约了将CoT推理作为默认操作的可行性。
-
最后,关于CoT效率,我们观察到输出长CoT的模型普遍存在步骤的相关性不足的问题。 模型容易被图像内容分散注意力,过度关注图像而忽视了对题目的解答,尤其是在处理通用场景、时空和OCR任务时。实验结果显示,约30%到40%的反思步骤未能有效协助问题解答,这暴露出当前模型反思能力的重要缺陷。
2、测评指标设计与数据组成
目前绝大多数的LMM的Benchmark都只评估最终答案的正确性,忽视了LMM整个的CoT的推理过程。为了能全面地了解视觉CoT的各个属性,研究者们提出了三个不同的评估方向,每个方向致力于回答一个关键的问题:
-
CoT的质量:每个CoT步骤是否有用且准确,不存在幻觉?
只评估回答的结果忽略了模型通过错误的逻辑或随机猜测得出正确答案的情况。这往往造成了模型推理能力被夸大的假象。为了深入研究推理过程,研究者们引入了两个可解释的指标来评估CoT的质量:
-
召回率 (Recall):评估模型的回答有多少能与正确解题的必要步骤匹配。这个指标是用来量化推理的步骤是否能对于得到正确答案有帮助,以及推理链是否完整。匹配的过程由GPT-4o完成。 -
精确率 (Precision):评估模型回答的每一步的准确程度来考查模型的幻觉以及逻辑的准确性。为了评估这一指标,研究者们首先使用GPT-4o将模型的回复切分成不同类型的步骤:背景知识、图片描述以及逻辑推理。然后继续对图片描述以及逻辑推理步骤判定每步是否正确。

-
CoT的鲁棒性:CoT是否干扰感知任务,它在多大程度上增强了推理任务?

现有研究主要关注CoT对推理任务带来的性能改进,却往往忽视了CoT是否会无意中破坏模型对于仅需要感知的任务的能力。随着o1以及R1的爆火,CoT逐渐已成为模型的默认的推理策略。然而,模型无法提前预知用户提出的问题类型,也不确定使用CoT来回答是否比直接给出答案会有更高的准确率。因此,在目前的时间点上,CoT在不同类型任务下的鲁棒性变得格外重要。为了衡量鲁棒性,MME-CoT包括了两个任务类别:感知任务和推理任务,以及两种不同的Prompt形式:要求模型直接回答(answer directly)以及CoT回答(think step by step)。
-
稳定性 (Stability):检查CoT是否对模型在感知任务上的表现产生负面影响 -
有效性 (Efficacy):检查CoT是否真的帮助模型提高在复杂推理任务上的表现
-
CoT的效率:使用CoT的推理效率是怎么样的?

最近的o1类模型通过采用超长的CoT和反思步骤而取得了非常好的效果。这提出了一个关键的权衡问题:这种方法是否在准确性和计算成本之间取得了最佳平衡?为了研究这一点,研究者们首次对LMMs中CoT的效率进行研究,使用了两个关键指标评估效率:
-
相关比例 (Relevance Rate):评估模型回答中与解决问题有关的比例。 -
反思质量 (Reflection Quality):分析每个反思步骤是否更正了推理中的错误或者从新的角度验证了目前结论的正确性。
-
MME-CoT测试集
与纯文本推理问题不同,额外的视觉输入显著丰富了视觉推理问题的范围。有了图像输入,模型需要根据当前的推理进度频繁查看图像以获取相关信息。描述感兴趣的图像区域成为了思维链(CoT)过程中的关键部分。因此,除了需要严格逻辑的复杂问题外,通用场景中的许多问题也构成了具有挑战性的推理问题。
考虑到这一点,MME-CoT测试集构建起了一个覆盖专业领域与常识场景的全景视觉推理评估体系,共包括6大领域以及17个子类。为了保持对推理过程的关注,研究者们排除了需要复杂领域特定定理或专业知识的问题。
MME-CoT中分为感知任务以及推理任务,现有的Benchmark往往混淆这两类任务,使得这两类经常出现在相同类别中。为了解决这个问题,研究者们首先使用GPT-4o以及Qwen2-VL来进行预判,通过对比直接作答与CoT作答的表现差异,初步划分这两种不同类型的任务。接着,专业的标注团队逐题审核,确保分类的准确性。
为了便于CoT的评估,标注团队为所有推理问题都给出了必要的推理步骤的Ground Truth标注。对于多解的问题,标注者被要求给出了每种可能的解法。最后,MME-CoT得到了1130道精选的问题以及3865个关键步骤标注。

3、实验分析与结论
研究者们在MME-CoT Benchmark上测评了13个现有的LMM以及2个最先进的具有超强推理能力的LLM:DeepSeek-R1以及o3-mini。对于LLM,研究者们将图片转化为详细的caption之后再输入到模型。
实验结果如下:


基于测评,还得到了如下的发现与结论:
-
长CoT不一定涵盖关键步骤
尽管长思维链模型具有更高的精确率,但每个步骤的信息量并不能得到保证。我们观察到GPT-4o、QVQ和Virgo之间的召回率的趋势和它们最终能否正确解答推理任务的表现(即在使用CoT的prompt时,模型在推理任务的最终答案准确率,对应表格中的CoT Reasoning列)不一致。具体来说,虽然Virgo和QVQ在仅评估最终答案的正确性上都优于GPT-4o,但它们在召回率上落后。这表明长CoT模型有时会在跳过中间步骤的情况下得出正确答案,这与CoT本身奉行的Think step by step的原则相矛盾,值得进一步研究。 -
更多参数使模型更好地掌握推理能力
我们发现参数量更大的模型往往获得更高的效能分数。这种模式在LLaVA-OV、InternVL2.5-MPO和Qwen2-VL中都很明显。例如,虽然Qwen2-VL-7B在将CoT应用于推理任务时显示出4.8%的性能下降,但其更大的对应模型Qwen2-VL-72B展示出2.4%的改进。这种差异表明,在相同的训练范式下,具有更多参数的模型能够更好地掌握推理能力。 -
模型的反思的错误涵盖多种类型

四种主要错误类型是:
-
无效反思:模型得出错误结论,在反思时,继续做出错误的调整。这是最常见的错误类型,也是最频繁出现的。 -
不完整:模型提出新的分析方法但未执行它们,仅停留在初始想法阶段。模型的反思只是在空想。 -
重复:模型重述先前的内容或方法,没有引入新的见解。 -
干扰:模型最初达到正确结论,但反思却引入了错误。理解和消除反思中的这些错误对于提高LMM的推理效率以及可靠性是至关重要的。
展望未来,MME-CoT不仅为评估LMM的推理能力提供了系统化的基准,更为该领域的研究指明了关键发展方向。通过揭示现有模型在推理质量、鲁棒性和计算效率等方面的不足,这项工作为后续研究奠定了重要基础。这些发现将推动LMM实现更强大以及可靠的视觉推理能力。
(文:极市干货)