就在OpenAI摆烂时，谷歌又又出手了！谷歌牌o1模型发布！

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

一图看懂今天的文章

接下来正文开始。

OpenAI在今年的圣诞季不断“造势”，把明明是一场直播就搞定的发布硬生生拆成了12场，最近两天明显是“没活硬整”，水分十足。

在此期间，谷歌却惊喜不断。

先是在Gemini模型发布一周年之际，即2024年12月6日，推出了新一代的Gemini实验版本：Gemini-exp-1206。我在前些天的文章里介绍过这个模型，用过的小伙伴可以在评论区留言讨论一波它的性能表现。至少自从它发布起，我都是在用它来总结概括OpenAI的发布会，好用的不得了，即使我有ChatGPT Plus和Claude Pro。

来看看Gemini-exp-1206在LMSYS聊天机器人排行榜（Chatbot Arena Leaderboard）和LiveBench LLM基准测试平台的表现。

下面是LMSYS排行榜12月18日最新的数据。Gemini-exp-1206依旧是排在首位，但值得一提的是，该榜单并没有加入满血版的o1模型，并且因为Gemini-exp-1206还算是比较新的模型，它的综合分数的置信区间还比较大，总投票数和其他模型相比还不太多，所以分数的稳定性还有待观察。

LiveBench则是另一个比较权威的LLM基准测试平台，专注于提供无污染（Contamination-Free） 的挑战性测试环境。LiveBench平台的目标是通过严格的测试和全面的评估，确保大语言模型的性能在真实场景中得到准确衡量，并避免因训练数据泄漏导致的不公平优势。

Gemini-exp-1206在LiveBench中以综合得分64.09的分数排名第三名，仅次于OpenAI的两个推理模型o1（75.67分）和o1-preview（65.79分）。也是非常猛的排名了。

然而，本篇文章的主角却不是Gemini-exp-1206，而是谷歌于今天新推出的首个推理模型Gemini 2.0 Flash Thinking。

关于Gemini 2.0 Flash Thinking

OpenAI引领了推理AI模型的潮流。作为一个推理模型，谷歌今天发布的Gemini 2.0 Flash Thinking对标的自然也是o1系列模型。和o1一样，Gemini 2.0 Flash Thinking在回答问题前也会通过内部思维链（Internal Chain of Thought）先思考，将复杂问题拆分为子问题，然后再作答，以提高回答的质量。

该模型当前处于实验阶段，版本号为gemini-2.0-flash-thinking-exp。

令人吃惊的是，在LMSYS聊天机器人排行榜（Chatbot Arena Leaderboard）中，gemini-2.0-flash-thinking-exp模型已经排到了第二名。虽然LMSYS排行榜比较偏主观，是基于用户的真实体验投票计算排名的，但一定程度上也能反映出谷歌这个推理模型的实力。

如何用Gemini 2.0 Flash Thinking

重点来了，如何用Gemini 2.0 Flash Thinking？

还是同样的配方，谷歌AI Studio选择Gemini 2.0 Flash Thinking Experimental模型即可免费使用这个推理模型！给大善人谷歌点个赞！

有使用数量的限制吗？

几乎没有！Rate limits为10次调用每分钟，每天最多1500次调用，这几乎等于没有限制。当然每分钟10次调用的速率是注定无法大规模商用的，除非多建账号构建池子，但容易被谷歌针对。

同样也支持API调用，只要将模型名称替换为gemini-2.0-flash-thinking-exp即可。

结语

谷歌最近真的是支棱起来了！

（文：AI信息Gap）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

一图看懂今天的文章

关于Gemini 2.0 Flash Thinking

如何用Gemini 2.0 Flash Thinking

结语

发表评论 取消回复

发表评论取消回复