谷歌最新发布的推理模型 Gemini 2.5 Pro
到底有多猛?
从基准测试看,它是毫无疑问的 “王者”,尤其是数学(AIME)、推理(GPQA)、多模态(MMMU)、长上下文(MRCR)。其中最后两项是谷歌 Gemini 系列模型自发布以来一直保持的优势。

从模型排名来看,它出道即巅峰:在 LiveBench 和 LMSYS 排行榜双双霸榜!
并且,是那种 “一骑绝尘” 式的第一名。
百分制的 LiveBench 比第二名 Claude 3.7 Sonnet - Thinking
高 6 分。

LMSYS 则比第二名 GPT-4o 0325
高了将近 40 分。

今天,就来实测一下,Gemini 2.5 Pro
到底是“嘴”强王者,还是实至名归。
所有的测试问题都是经过验证且有一定难度的题目。其他推理模型的测试结果可以看之前的文章。
-
元旦献礼:谁才是o1的最佳平替?!
-
测试了一天,我帮你们找到了OpenAI o1的平替!
-
号称媲美o1的Kimi K1.5,被24点难哭了…『首发实测』
在之前的测试中,表现最好的是 OpenAI 的 o1
和 DeepSeek 的 DeepSeek-R1
,其中,DeepSeek-R1
12 题对了 10 个。
而 Gemini 2.5 Pro
的测试结果,容我先卖个关子,有大大的惊喜。
1. 帽子颜色问题
三个囚犯 A、B 和 C,分别戴着红帽或蓝帽(但无法看到自己的帽子)。守卫说:“至少有一个囚犯戴着红帽。” A 说:“我不知道我的帽子颜色。” B 说:“我也不知道。” C 说:“我知道了。” 问 C 的帽子是什么颜色?
Gemini 2.5 Pro
的答案和推理过程都完全正确。
这里需要注意,虽然是用中文问的,但 Gemini 2.5 Pro
的思考过程为纯英文,回答是以中文输出。答案很详尽,推理有理有据。

接下来的 24 点问题都是含有复杂操作如除法、分数、小数的题目。
2. “2、3、5、12”
用数字 2、3、5、12 和四则运算得出结果 24。
回答正确。除了正确方法外,Gemini 2.5 Pro
尝试找出其他解但失败了,在自我验证环节发现了自己的问题。

3. “2, 7, 8, 9”
用数字 2, 7, 8, 9 和四则运算得出结果 24。
回答正确。

4. “1, 2, 7, 7”
用数字 1, 2, 7, 7 和四则运算得出结果 24。
回答正确。

5. “2, 2, 2, 9”
用数字 2, 2, 2, 9 和四则运算得出结果 24。
回答正确。这里 Gemini 2.5 Pro
虽然写出了两种解法,但这两种解法只是调换了一下加数/被加数的位置,本质上还是一样的。

6. “4, 4, 10, 10”
用数字 4, 4, 10, 10 和四则运算得出结果 24。
回答正确。

7. “1, 5, 5, 5”
用数字 1, 5, 5, 5 和四则运算得出结果 24。
回答正确。

8. “2, 5, 5, 10”
用数字 2, 5, 5, 10 和四则运算得出结果 24。
回答正确。这四个数和上面的问题很类似。

9. “1, 4, 5, 6”
用数字 1, 4, 5, 6 和四则运算得出结果 24。
回答正确。Gemini 2.5 Pro
共找到了两种不同的解法。并且在自我验证环节排除了一个潜在的“幻觉”。

10. “6, 9, 9, 10”
用数字 6, 9, 9, 10 和四则运算得出结果 24。
回答正确。太牛了,又是两种解法。感觉 Gemini 2.5 Pro
是来秀肌肉的。

11. “3, 3, 7, 7”
用数字 3, 3, 7, 7 和四则运算得出结果 24。
回答正确。依旧,自我验证是亮点。

12. “3, 3, 8, 8”
用数字 3, 3, 8, 8 和四则运算得出结果 24。
回答正确。

测试结果
统计一下。
如果你是从头看到尾了,那么估计你已经发现了,Gemini 2.5 Pro
正确率 100%。
|
|
|
|
|
---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
🎯 总成绩:12 / 12,全对!
所以,Gemini 2.5 Pro
的强,是实打实的强。我愿称它为,免费的推理模型中最强的,最强的推理模型中免费的。
更难得的是,Gemini 2.5 Pro
几乎没有产生幻觉,具有很强的自我验证意识,一旦发现错误立刻承认并纠正。
让你们看下什么是幻觉。

当大模型一本正经的胡说八道时,这就是幻觉。
结语
如果说 Gemini 1.x
系列还只是谷歌 “不甘落后的回应”,那么 Gemini 2.5 Pro
无疑是一次真正意义上的 “领跑” 尝试。
我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。
相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用AI为你的未来加速。
(文:AI信息Gap)