大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。
一图看懂今天的文章
接下来正文开始。
OpenAI在今年的圣诞季不断“造势”,把明明是一场直播就搞定的发布硬生生拆成了12场,最近两天明显是“没活硬整”,水分十足。
在此期间,谷歌却惊喜不断。
先是在Gemini模型发布一周年之际,即2024年12月6日,推出了新一代的Gemini实验版本:Gemini-exp-1206
。我在前些天的文章里介绍过这个模型,用过的小伙伴可以在评论区留言讨论一波它的性能表现。至少自从它发布起,我都是在用它来总结概括OpenAI的发布会,好用的不得了,即使我有ChatGPT Plus和Claude Pro。
来看看Gemini-exp-1206
在LMSYS聊天机器人排行榜(Chatbot Arena Leaderboard)和LiveBench LLM基准测试平台的表现。
下面是LMSYS排行榜12月18日最新的数据。Gemini-exp-1206
依旧是排在首位,但值得一提的是,该榜单并没有加入满血版的o1
模型,并且因为Gemini-exp-1206
还算是比较新的模型,它的综合分数的置信区间还比较大,总投票数和其他模型相比还不太多,所以分数的稳定性还有待观察。
LiveBench则是另一个比较权威的LLM基准测试平台,专注于提供无污染(Contamination-Free) 的挑战性测试环境。LiveBench平台的目标是通过严格的测试和全面的评估,确保大语言模型的性能在真实场景中得到准确衡量,并避免因训练数据泄漏导致的不公平优势。
Gemini-exp-1206
在LiveBench中以综合得分64.09的分数排名第三名,仅次于OpenAI的两个推理模型o1
(75.67分)和o1-preview
(65.79分)。也是非常猛的排名了。
然而,本篇文章的主角却不是Gemini-exp-1206
,而是谷歌于今天新推出的首个推理模型Gemini 2.0 Flash Thinking
。
关于Gemini 2.0 Flash Thinking
OpenAI引领了推理AI模型的潮流。作为一个推理模型,谷歌今天发布的Gemini 2.0 Flash Thinking
对标的自然也是o1
系列模型。和o1
一样,Gemini 2.0 Flash Thinking
在回答问题前也会通过内部思维链(Internal Chain of Thought)先思考,将复杂问题拆分为子问题,然后再作答,以提高回答的质量。
该模型当前处于实验阶段,版本号为gemini-2.0-flash-thinking-exp
。
令人吃惊的是,在LMSYS聊天机器人排行榜(Chatbot Arena Leaderboard)中,gemini-2.0-flash-thinking-exp
模型已经排到了第二名。虽然LMSYS排行榜比较偏主观,是基于用户的真实体验投票计算排名的,但一定程度上也能反映出谷歌这个推理模型的实力。
如何用Gemini 2.0 Flash Thinking
重点来了,如何用Gemini 2.0 Flash Thinking?
还是同样的配方,谷歌AI Studio选择Gemini 2.0 Flash Thinking Experimental
模型即可免费使用这个推理模型!给大善人谷歌点个赞!
有使用数量的限制吗?
几乎没有!Rate limits为10次调用每分钟,每天最多1500次调用,这几乎等于没有限制。当然每分钟10次调用的速率是注定无法大规模商用的,除非多建账号构建池子,但容易被谷歌针对。
同样也支持API调用,只要将模型名称替换为gemini-2.0-flash-thinking-exp
即可。
结语
谷歌最近真的是支棱起来了!
(文:AI信息Gap)