大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2025我们继续出发。
在刚刚过去的2024年12月,AI大模型领域发生了3件大事。
第一,OpenAI于12月5日发布了满血版o1
,即o1-preview
的正式版本。
第二,谷歌Gemini陆续发布了3个重磅模型,每一个都很有意义。首先是12月6日发布的通用基座模型Gemini-Exp-1206
,它和GPT-4o
,Claude 3.5 Sonnet
是一类(这个模型的发布时间也很有意思,就在满血版o1
发布一天后,同时也是Gemini模型一周年纪念日);接着是12月11日发布的Gemini-2.0-Flash-Exp
,这是Gemini 2.0系列的第一个模型,为小参数模型;最后是12月19日发布了谷歌旗下的首个推理模型Gemini-2.0-Flash-Thinking
,该模型和o1
是一类。
第三,国内AI初创公司DeepSeek(中文名:深度求索)于12月26日发布了DeepSeek V3
,为DeepSeek V2.5
的升级版本,同样是一个通用模型。
需要注意的是,这里我们聚焦于文本模型,文生视频模型如Sora暂不做讨论。
LMSYS聊天机器人竞技场排行榜
这里附上去除了回答风格因素的榜单,即勾选Style Control
,这个排名更能直接体现模型本身的能力,因为排除了某些可能影响得分的混淆因素,如回答长度、Markdown格式等。
LiveBench排行榜
1. OpenAI o1
如果不考虑通用模型和推理模型的差异,把所有模型放到一起对比,OpenAI的o1
自然是当之无愧的第一名。LMSYS竞技场o1
综合评分1328分,由于LMSYS刚刚添加该模型不久,所以投票数还不多,95%置信区间也偏高;LiveBench排行榜o1
综合得分75.67分,在这两个排行榜o1
均为第一名。
2. 谷歌 Gemini-Exp-1206
用“出道即巅峰”形容Gemini-Exp-1206
是一点问题也没有的,LMSYS和LiveBench两个排行榜均为第二名,综合分数分别为1321和64.09分。准确来说,LMSYS竞技场中,Gemini-Exp-1206
是和o1
并列第一,仅相差7分。
3. 谷歌 Gemini-2.0-Flash-Thinking
谷歌的首个推理模型,基于Gemini-2.0-Flash-Thinking
训练的,效果没有o1
好在情理之中,但排名一点不含糊,在LMSYS和LiveBench两个排行榜均占据第三名的好成绩,综合得分1309和61.83分。
4. 谷歌 Gemini-2.0-Flash
谷歌Gemini 2.0系列的首发模型Gemini-2.0-Flash-Exp
,对标的其实应该是小参数模型那一类,如GPT-4o mini
和Claude 3.5 Haiku
,其表现也是惊人的好,在LMSYS竞技场得分1296分,位于第4名;在LiveBench排行榜则以59.26的综合分数排在第5名。
谷歌这一波真是凭实力赚口碑。排名这么高的模型,还都免费开放使用,一个字,绝。
5. DeepSeek V3
DeepSeek近期可谓是大火,赚足了眼球。但总得来说,DeepSeek V3
在排行榜的表现,对得起这样的关注度。LMSYS竞技场得分1274分,和满血版o1
一样,因为刚刚收录,投票数不足,导致置信区间偏大,这个分数可能还没有反应其真实水平,目前位列第8名,也是前10名里唯一的一个国产大模型。LiveBench排行榜综合得分60.45分,排在Gemini-2.0-Flash-Exp
的前面,第4名。
值得一提的是,我们需要对一路高歌的声音保持警惕,比如“DeepSeek V3
在编程方面已经超越了Claude 3.5 Sonnet
”这种言论,从编程的单项榜单也可以看出,DeepSeek V3
确实表现不俗,但要说超过Claude 3.5 Sonnet
,还并没有,只能说“媲美”。再考虑到它的API定价,就性价比这一点已经强于很多其他模型了。
附上一张LiveBench排行榜“Coding”专项的排名截图。
6. 其他
老牌强者GPT-4o
最近的一次更新还是在11月20日,模型名为ChatGPT-4o-latest-1120
,位列LMSYS竞技场的并列第一,综合得分1317;LiveBench排行榜则没有收录该模型。
很多小伙伴心里的心头好Claude 3.5 Sonnet
最近一次更新是10月22日,这个模型的强势在编程这个单项,综合排名其实不是特别突出,分别是LMSYS竞技场的第8名以及LiveBench排行榜的第6名。但就编程单项而言,两个排行榜均为第1名,和o1
并列。
(文:AI信息Gap)