就在OpenAI摆烂时,谷歌又又出手了!谷歌牌o1模型发布!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

一图看懂今天的文章

接下来正文开始。

OpenAI在今年的圣诞季不断“造势”,把明明是一场直播就搞定的发布硬生生拆成了12场,最近两天明显是“没活硬整”,水分十足。

在此期间,谷歌却惊喜不断。

先是在Gemini模型发布一周年之际,即2024年12月6日,推出了新一代的Gemini实验版本:Gemini-exp-1206。我在前些天的文章里介绍过这个模型,用过的小伙伴可以在评论区留言讨论一波它的性能表现。至少自从它发布起,我都是在用它来总结概括OpenAI的发布会,好用的不得了,即使我有ChatGPT Plus和Claude Pro。

来看看Gemini-exp-1206在LMSYS聊天机器人排行榜(Chatbot Arena Leaderboard)和LiveBench LLM基准测试平台的表现。

下面是LMSYS排行榜12月18日最新的数据。Gemini-exp-1206依旧是排在首位,但值得一提的是,该榜单并没有加入满血版的o1模型,并且因为Gemini-exp-1206还算是比较新的模型,它的综合分数的置信区间还比较大,总投票数和其他模型相比还不太多,所以分数的稳定性还有待观察。

LiveBench则是另一个比较权威的LLM基准测试平台,专注于提供无污染(Contamination-Free) 的挑战性测试环境。LiveBench平台的目标是通过严格的测试和全面的评估,确保大语言模型的性能在真实场景中得到准确衡量,并避免因训练数据泄漏导致的不公平优势。

Gemini-exp-1206在LiveBench中以综合得分64.09的分数排名第三名,仅次于OpenAI的两个推理模型o1(75.67分)和o1-preview(65.79分)。也是非常猛的排名了。

然而,本篇文章的主角却不是Gemini-exp-1206,而是谷歌于今天新推出的首个推理模型Gemini 2.0 Flash Thinking

关于Gemini 2.0 Flash Thinking

OpenAI引领了推理AI模型的潮流。作为一个推理模型,谷歌今天发布的Gemini 2.0 Flash Thinking对标的自然也是o1系列模型。和o1一样,Gemini 2.0 Flash Thinking在回答问题前也会通过内部思维链(Internal Chain of Thought)先思考,将复杂问题拆分为子问题,然后再作答,以提高回答的质量。

该模型当前处于实验阶段,版本号为gemini-2.0-flash-thinking-exp

令人吃惊的是,在LMSYS聊天机器人排行榜(Chatbot Arena Leaderboard)中,gemini-2.0-flash-thinking-exp模型已经排到了第二名。虽然LMSYS排行榜比较偏主观,是基于用户的真实体验投票计算排名的,但一定程度上也能反映出谷歌这个推理模型的实力。

如何用Gemini 2.0 Flash Thinking

重点来了,如何用Gemini 2.0 Flash Thinking?

还是同样的配方,谷歌AI Studio选择Gemini 2.0 Flash Thinking Experimental模型即可免费使用这个推理模型!给大善人谷歌点个赞!

有使用数量的限制吗?

几乎没有!Rate limits为10次调用每分钟,每天最多1500次调用,这几乎等于没有限制。当然每分钟10次调用的速率是注定无法大规模商用的,除非多建账号构建池子,但容易被谷歌针对。

同样也支持API调用,只要将模型名称替换为gemini-2.0-flash-thinking-exp即可。

结语

谷歌最近真的是支棱起来了!



(文:AI信息Gap)

欢迎分享

发表评论