数学推理归档 - 第3页共5页 - 每时AI

大模型全军覆没，中科院自动化所推出多图数学推理新基准 CVPR 2025

下午4时 2025/03/11 作者量子位

近日，中国科学院自动化研究所推出多图数学推理全新基准MV-MATH，旨在全面评估MLLM（多模态大语言模型）的数学推理能力。结果发现，包括GPT-4o、QvQ等先进模型在该数据集上的表现均不及格。研究团队指出，现有的多模态数学基准大多局限于单一视觉场景，而MV-MATH则包含多个图像和文本交织而成的复杂多视觉场景，覆盖11个数学领域，并分为三个难度级别。

QwQ-32B：阿里 320 亿参数开源推理大模型，性能惊艳！

下午7时 2025/03/07 作者小兵的AI视界

阿里巴巴团队开源了最新研发的大模型QwQ-32B，该模型在数学推理、代码生成和逻辑分析等领域表现出色，性能媲美DeepSeek-R1。其轻量化部署特性使其成为中小团队的理想选择。

阿里半夜开源全新推理模型，QwQ-32B比肩DeepSeek-R1满血版

下午4时 2025/03/06 作者机器之心

阿里开源发布新推理模型QwQ-32B，参数量为320亿。其性能可媲美6710亿参数的DeepSeek-R1满血版。千问团队通过大规模强化学习提升了模型的推理能力，在数学和编程任务上表现优异，并提供了API使用指南。

超越DeepSeek-ProverV1.5！豆包首个形式化数学推理模型BFS-Prover来了，直接开源

下午4时 2025/02/25 作者机器之心

多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，

简单示例提升DeepSeek-R1美国数学邀请赛AIME分数：以步骤为粒度对齐上下文学习与推理

下午4时 2025/02/20 作者量子位

-R1美国数学邀请赛AIME分数再提高。
上海交大、港中文、上海AI实验室等带来最新成果
Boost

20万卡吞金兽 Grok 3 炸裂登场，卡帕西大神亲测：性能超过DeepSeek R1！马斯克：短期不开源

下午4时 2025/02/18 作者 AI前线

克再次成为全球焦点。2 月 12 日，这位科技狂人在迪拜世界政府峰会上透露，其旗下的人工智能公司 x

8卡32B模型超越o1预览版、DeepSeek V3，普林斯顿、北大提出层次化RL推理新范式

下午11时 2025/02/12 作者 PaperWeekly

的 Gemini、DeepSeek 和 Qwen-QwQ 等，通过模拟人类推理过程，在多个专业领域

817样本激发7倍推理性能：上交大「少即是多」定律挑战RL Scaling范式

上午8时 2025/02/07 作者机器之心

机器之心发布
机器之心编辑部
在追求人工智能极限的道路上，”更大即更强” 似乎已成为共识。特别是在数