MV-MATH归档 - 每时AI

大模型全军覆没，中科院自动化所推出多图数学推理新基准 CVPR 2025

下午4时 2025/03/11 作者量子位

近日，中国科学院自动化研究所推出多图数学推理全新基准MV-MATH，旨在全面评估MLLM（多模态大语言模型）的数学推理能力。结果发现，包括GPT-4o、QvQ等先进模型在该数据集上的表现均不及格。研究团队指出，现有的多模态数学基准大多局限于单一视觉场景，而MV-MATH则包含多个图像和文本交织而成的复杂多视觉场景，覆盖11个数学领域，并分为三个难度级别。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30