大模型全军覆没,中科院自动化所推出多图数学推理新基准 CVPR 2025

近日,中国科学院自动化研究所推出多图数学推理全新基准MV-MATH,旨在全面评估MLLM(多模态大语言模型)的数学推理能力。结果发现,包括GPT-4o、QvQ等先进模型在该数据集上的表现均不及格。研究团队指出,现有的多模态数学基准大多局限于单一视觉场景,而MV-MATH则包含多个图像和文本交织而成的复杂多视觉场景,覆盖11个数学领域,并分为三个难度级别。

阿里半夜开源全新推理模型,QwQ-32B比肩DeepSeek-R1满血版

阿里开源发布新推理模型QwQ-32B,参数量为320亿。其性能可媲美6710亿参数的DeepSeek-R1满血版。千问团队通过大规模强化学习提升了模型的推理能力,在数学和编程任务上表现优异,并提供了API使用指南。