大模型全军覆没,中科院自动化所推出多图数学推理新基准 CVPR 2025

近日,中国科学院自动化研究所推出多图数学推理全新基准MV-MATH,旨在全面评估MLLM(多模态大语言模型)的数学推理能力。结果发现,包括GPT-4o、QvQ等先进模型在该数据集上的表现均不及格。研究团队指出,现有的多模态数学基准大多局限于单一视觉场景,而MV-MATH则包含多个图像和文本交织而成的复杂多视觉场景,覆盖11个数学领域,并分为三个难度级别。