2024年12月LLM最新排名:o1、Gemini双雄争霸,DeepSeek黑马杀入!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2025我们继续出发。

在刚刚过去的2024年12月,AI大模型领域发生了3件大事。

第一,OpenAI于12月5日发布了满血版o1,即o1-preview的正式版本。

第二,谷歌Gemini陆续发布了3个重磅模型,每一个都很有意义。首先是12月6日发布的通用基座模型Gemini-Exp-1206,它和GPT-4oClaude 3.5 Sonnet是一类(这个模型的发布时间也很有意思,就在满血版o1发布一天后,同时也是Gemini模型一周年纪念日);接着是12月11日发布的Gemini-2.0-Flash-Exp,这是Gemini 2.0系列的第一个模型,为小参数模型;最后是12月19日发布了谷歌旗下的首个推理模型Gemini-2.0-Flash-Thinking,该模型和o1是一类。

第三,国内AI初创公司DeepSeek(中文名:深度求索)于12月26日发布了DeepSeek V3,为DeepSeek V2.5的升级版本,同样是一个通用模型。

需要注意的是,这里我们聚焦于文本模型,文生视频模型如Sora暂不做讨论。

LMSYS聊天机器人竞技场排行榜

这里附上去除了回答风格因素的榜单,即勾选Style Control,这个排名更能直接体现模型本身的能力,因为排除了某些可能影响得分的混淆因素,如回答长度、Markdown格式等。

LiveBench排行榜

1. OpenAI o1

如果不考虑通用模型和推理模型的差异,把所有模型放到一起对比,OpenAI的o1自然是当之无愧的第一名。LMSYS竞技场o1综合评分1328分,由于LMSYS刚刚添加该模型不久,所以投票数还不多,95%置信区间也偏高;LiveBench排行榜o1综合得分75.67分,在这两个排行榜o1均为第一名。

2. 谷歌 Gemini-Exp-1206

用“出道即巅峰”形容Gemini-Exp-1206是一点问题也没有的,LMSYS和LiveBench两个排行榜均为第二名,综合分数分别为1321和64.09分。准确来说,LMSYS竞技场中,Gemini-Exp-1206是和o1并列第一,仅相差7分。

3. 谷歌 Gemini-2.0-Flash-Thinking

谷歌的首个推理模型,基于Gemini-2.0-Flash-Thinking训练的,效果没有o1好在情理之中,但排名一点不含糊,在LMSYS和LiveBench两个排行榜均占据第三名的好成绩,综合得分1309和61.83分。

4. 谷歌 Gemini-2.0-Flash

谷歌Gemini 2.0系列的首发模型Gemini-2.0-Flash-Exp,对标的其实应该是小参数模型那一类,如GPT-4o miniClaude 3.5 Haiku,其表现也是惊人的好,在LMSYS竞技场得分1296分,位于第4名;在LiveBench排行榜则以59.26的综合分数排在第5名。

谷歌这一波真是凭实力赚口碑。排名这么高的模型,还都免费开放使用,一个字,绝。

5. DeepSeek V3

DeepSeek近期可谓是大火,赚足了眼球。但总得来说,DeepSeek V3在排行榜的表现,对得起这样的关注度。LMSYS竞技场得分1274分,和满血版o1一样,因为刚刚收录,投票数不足,导致置信区间偏大,这个分数可能还没有反应其真实水平,目前位列第8名,也是前10名里唯一的一个国产大模型。LiveBench排行榜综合得分60.45分,排在Gemini-2.0-Flash-Exp的前面,第4名。

值得一提的是,我们需要对一路高歌的声音保持警惕,比如“DeepSeek V3在编程方面已经超越了Claude 3.5 Sonnet”这种言论,从编程的单项榜单也可以看出,DeepSeek V3确实表现不俗,但要说超过Claude 3.5 Sonnet,还并没有,只能说“媲美”。再考虑到它的API定价,就性价比这一点已经强于很多其他模型了。

附上一张LiveBench排行榜“Coding”专项的排名截图。

6. 其他

老牌强者GPT-4o最近的一次更新还是在11月20日,模型名为ChatGPT-4o-latest-1120,位列LMSYS竞技场的并列第一,综合得分1317;LiveBench排行榜则没有收录该模型。

很多小伙伴心里的心头好Claude 3.5 Sonnet最近一次更新是10月22日,这个模型的强势在编程这个单项,综合排名其实不是特别突出,分别是LMSYS竞技场的第8名以及LiveBench排行榜的第6名。但就编程单项而言,两个排行榜均为第1名,和o1并列。



(文:AI信息Gap)

欢迎分享

发表评论