谷歌推最强单加速模型Gemma 3，PK QwQ-32B 5道题仅对1个！

作者｜子川

来源｜AI先锋官

就在昨日的的巴黎开发者日上，谷歌宣布推出了 Gemma 3 全家桶，这是一款基于 Gemini 2.0 的全新开源模型。

同时Gemma 3 还引入了多模态能力，支持视觉语言输入和文本输出，以及结构化输出和函数调用等功能。

可处理多达 128k 个Token的上下文，理解 140 多种语言。

Gemma 3 在设计之初，目标就是小而精。

此次共发布四款不同尺寸版本(1B, 4B, 12B, 27B) ，开发者可以直接在手机、笔记本电脑上直接快速地运行。

对于其能力，谷歌表示：Gemma 3 是单个 GPU 或 TPU 上运行的功能最强大的模型。

它的跑分成绩也确实不赖。

在LMArena竞技场中，Gemma 3取得了1339 ELO的高分，Gemma 3 27B参数模型直接击败了o1-preview、o3-mini high、DeepSeek V3等众多顶尖模型，排进了榜单前十。

同时，Gemma 3 27B 在 Chatbot Arena Elo 分数测试中排名第二，仅次于 DeepSeek-R1，超过了 DeepSeek DeepSeek v3、OpenAI 的 o3-mini等一系列模型。

在多项基准测试中，Gemma 3全家桶相较于Gemma 2实现了全面提升，不过在其他领域得分不及Gemini 1.5以及Gemini 2。

那实际效果否和官方给的测评一样厉害呢？老规矩，上手测一下就知道了。

前日，阿里开源了推理模型QwQ-32B，实测过后，效果非常出色，正好QwQ-32B和Gemma 3 27B尺寸差不多，我们用它们俩来PK一下，看看谁更胜一筹。

相关阅读：阿里开源推理模型QwQ-32B，实测PK比他大20倍的DeepSeek-R1

为了防止在测试过程中开挂，会关闭QwQ-32B的搜索功能。

题目一：数草莓

Gemma 3 27B：

QwQ-32B：

想不到Gemma 3一上来就翻车了，2025年，这道题居然还有模型做错…..

Gemma 3 回答只有2个“r”，而QwQ-32B还是一如既往的稳，回答正确。

题目二：房子里有五个人，A、B、C、D和E，A正在和B看电视，D在睡觉，E在打乒乓球，请问C在做什么？

这道题是一道较为简单推理题，因为乒乓球是双人运动，目前只有E一个人在玩，那么还有一个人是谁呢？答案呼之欲出就是C了，我们来看它们的回答。

Gemma 3 27B：

QwQ-32B：

好家伙，Gemma 3再度翻车，它的回答是”C在和A、B一起看电视”。反观QwQ-32B依旧回答正确。

再来一道简单的推理题，看看Gemma 3是否还会翻车。

题目三：有1000kg蘑菇，含水量是99％。现在晒几天，晒到含水量为98%，需要晒掉多少水？

Gemma 3 27B：

QwQ-32B：

终于，Gemma 3回答准确了，再回答错误，我都会怀疑是不是用错了模型，同样回答准确的还有QwQ-32B。

是时候上上难度了，来道高度烧脑的推理题。

题目四：日期推理题

提示词:老师告诉学生自己的生日是以下日期之一：3月4日、3月5日、3月8日、6月4日、6月7日、9月1日、9月5日、12月1日、12月2日、12月8日，老师只告诉了A月份，告诉了B日期。A说：“我不知道老师的生日，但B肯定也不知道。” B说：“我本来也不知道，但现在我知道了。” A说：“那我也知道了。” 请问老师的生日是哪一天？

Gemma 3 27B：

QwQ-32B：

Gemma 3 依旧推理错误，正确答案是9月1日，QwQ-32B推理正确。

怎么刚上难度，Gemma 3就回答错误了，难道是凑巧碰上了？

那就再来一道同样难度的推理题。

题目五：猜牌小游戏

题目：S先生、P先生、Q先生他们知道桌子的抽屉里有16张扑克牌：红桃A、Q、4；黑桃J、8、4、2、7、3；草花K、Q、5、4、6；方块A、5。约翰教授从这16张牌中挑出一张牌来，并把这张牌的点数告诉P先生，把这张牌的花色告诉Q先生。这时，约翰教授问P先生和Q先生：你们能从已知的点数或花色中推知这张牌是什么牌吗？于是，S先生听到如下的对话：P先生：我不知道这张牌。Q先生：我知道你不知道这张牌。P先生：现在我知道这张牌了。Q先生：我也知道了。听罢以上的对话，S先生想了一想之后，就正确地推出这张牌是什么牌。请问：这张牌是什么牌。

Gemma 3 27B：

QwQ-32B：

还得是QwQ-32B啊，一如既往的稳定，成功推理出“方块5”，同样稳定输出的还有Gemma 3，给出的答案是“黑桃4”，推理错误。

测试结果出乎意料，一共测试了5道推理题，Gemma 3仅答对了一道题，而QwQ-32B模型，全部回答正确，然后小编又去计算了第二遍，结果依旧没变。

整体测试下来，Gemma 3的推理能力确实不太行。

目前Gemma 3全家桶已在Google AI Studio上线，大家感兴趣的去测试一下，免费，支持白嫖！

附上使用地址：https://aistudio.google.com/

（文：AI先锋官）

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

发表评论取消回复