数学基准测试归档

新版Gemini 2.5所有榜一，谷歌无敌了！一个月全面击败o3，编程反超Claude 4

上午11时 2025/06/06 作者新智元

谷歌发布了Gemini 2.5 Pro，仅用一个月就碾压了旧版。新版模型在数学、编程和推理方面表现卓越，稳居所有榜单第一。它引入了‘思考预算’功能，并提升了代码生成的质量。

上午8时 2025/04/22 作者 AI寒武纪

OpenAI推出的满血版O3模型在数学基准测试中的成绩被独立测试揭穿为10%，远低于原公布的25%+，揭示了测试环境、数据集以及模型版本差异的影响。

下午11时 2025/03/18 作者量子位

一半
都是“重复劳动”！
来自上海AI Lab、上海交大以及浙江大学最新研究显示：当下流行的多模态大

下午4时 2025/01/21 作者新智元

新智元报道
编辑：泽正英智
【新智元导读】
人大清华团队提出Search-o1框架，大幅提升推理模

下午4时 2025/01/11 作者多知

微软发布rStar-Math技术，让小型语言模型具备深度思考能力。通过蒙特卡罗树搜索方法，该技术在多个开源模型测试中取得了显著提升，甚至超越了OpenAI的o1-preview系统。

下午2时 2025/01/09 作者 AI先锋官

昆仑万维发布「天工大模型」4.0版本，免费向用户开放。Skywork o1在数学和代码基准测试中表现优于国产模型。对比其他模型，其推理能力和学习能力有所提升。