Qwen-VL-Max 归档

小学数学题，大模型集体不及格！达摩院推出新基准VCBench

2025年5月22日23时作者量子位

大模型在小学数学题测试中表现不佳，平均得分为47.03%-49.77%，显著低于人类的93.30%。达摩院推出的新基准VCBench专注于评估具备显式视觉依赖性的多模态数学推理任务，强调vision-centric而非knowledge-centric。该基准主要针对小学1-6年级的数学问题，全面评估纯视觉推理的多种能力，涵盖六大核心认知领域和五种不同认知能力。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31