跳至内容
作者|子川
就在昨日的的巴黎开发者日上,谷歌宣布推出了 Gemma 3 全家桶,这是一款基于 Gemini 2.0 的全新开源模型。
同时Gemma 3 还引入了多模态能力,支持视觉语言输入和文本输出,以及结构化输出和函数调用等功能。
可处理多达 128k 个Token的上下文,理解 140 多种语言。
此次共发布四款不同尺寸版本(1B, 4B, 12B, 27B) ,开发者可以直接在手机、笔记本电脑上直接快速地运行。
对于其能力,谷歌表示:Gemma 3 是单个 GPU 或 TPU 上运行的功能最强大的模型。
在LMArena竞技场中,Gemma 3取得了1339 ELO的高分,Gemma 3 27B参数模型直接击败了o1-preview、o3-mini high、DeepSeek V3等众多顶尖模型,排进了榜单前十。
同时,Gemma 3 27B 在 Chatbot Arena Elo 分数测试中排名第二,仅次于 DeepSeek-R1,超过了 DeepSeek DeepSeek v3、OpenAI 的 o3-mini等一系列模型。
在多项基准测试中,Gemma 3全家桶相较于Gemma 2实现了全面提升,不过在其他领域得分不及Gemini 1.5以及Gemini 2。
那实际效果否和官方给的测评一样厉害呢?老规矩,上手测一下就知道了。
前日,阿里开源了推理模型QwQ-32B,实测过后,效果非常出色,正好QwQ-32B和Gemma 3 27B尺寸差不多,我们用它们俩来PK一下,看看谁更胜一筹。
相关阅读:阿里开源推理模型QwQ-32B,实测PK比他大20倍的DeepSeek-R1
为了防止在测试过程中开挂,会关闭QwQ-32B的搜索功能。
想不到Gemma 3一上来就翻车了,2025年,这道题居然还有模型做错…..
Gemma 3 回答只有2个“r”,而QwQ-32B还是一如既往的稳,回答正确。
题目二:房子里有五个人,A、B、C、D和E,A正在和B看电视,D在睡觉,E在打乒乓球,请问C在做什么?
这道题是一道较为简单推理题,因为乒乓球是双人运动,目前只有E一个人在玩,那么还有一个人是谁呢?答案呼之欲出就是C了,我们来看它们的回答。
好家伙,Gemma 3再度翻车,它的回答是”C在和A、B一起看电视”。反观QwQ-32B依旧回答正确。
再来一道简单的推理题,看看Gemma 3是否还会翻车。
题目三:有1000kg蘑菇,含水量是99%。现在晒几天,晒到含水量为98%,需要晒掉多少水?
终于,Gemma 3回答准确了,再回答错误,我都会怀疑是不是用错了模型,同样回答准确的还有QwQ-32B。
提示词:老师告诉学生自己的生日是以下日期之一:3月4日、3月5日、3月8日、6月4日、6月7日、9月1日、9月5日、12月1日、12月2日、12月8日,老师只告诉了A月份,告诉了B日期。A说:“我不知道老师的生日,但B肯定也不知道。” B说:“我本来也不知道,但现在我知道了。” A说:“那我也知道了。” 请问老师的生日是哪一天?
Gemma 3 依旧推理错误,正确答案是9月1日,QwQ-32B推理正确。
怎么刚上难度,Gemma 3就回答错误了,难道是凑巧碰上了?
题目:S先生、P先生、Q先生他们知道桌子的抽屉里有16张扑克牌:红桃A、Q、4;黑桃J、8、4、2、7、3;草花K、Q、5、4、6;方块A、5。约翰教授从这16张牌中挑出一张牌来,并把这张牌的点数告诉P先生,把这张牌的花色告诉Q先生。这时,约翰教授问P先生和Q先生:你们能从已知的点数或花色中推知这张牌是什么牌吗?于是,S先生听到如下的对话:P先生:我不知道这张牌。Q先生:我知道你不知道这张牌。P先生:现在我知道这张牌了。Q先生:我也知道了。听罢以上的对话,S先生想了一想之后,就正确地推出这张牌是什么牌。请问:这张牌是什么牌。
还得是QwQ-32B啊,一如既往的稳定,成功推理出“方块5”,同样稳定输出的还有Gemma 3,给出的答案是“黑桃4”,推理错误。
测试结果出乎意料,一共测试了5道推理题,Gemma 3仅答对了一道题,而QwQ-32B模型,全部回答正确,然后小编又去计算了第二遍,结果依旧没变。
整体测试下来,Gemma 3的推理能力确实不太行。
目前Gemma 3全家桶已在Google AI Studio上线,大家感兴趣的去测试一下,免费,支持白嫖!
附上使用地址:https://aistudio.google.com/
(文:AI先锋官)