2024年12月LLM最新排名：o1、Gemini双雄争霸，DeepSeek黑马杀入！

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2025我们继续出发。

在刚刚过去的2024年12月，AI大模型领域发生了3件大事。

第一，OpenAI于12月5日发布了满血版o1，即o1-preview的正式版本。

第二，谷歌Gemini陆续发布了3个重磅模型，每一个都很有意义。首先是12月6日发布的通用基座模型Gemini-Exp-1206，它和GPT-4o，Claude 3.5 Sonnet是一类（这个模型的发布时间也很有意思，就在满血版o1发布一天后，同时也是Gemini模型一周年纪念日）；接着是12月11日发布的Gemini-2.0-Flash-Exp，这是Gemini 2.0系列的第一个模型，为小参数模型；最后是12月19日发布了谷歌旗下的首个推理模型Gemini-2.0-Flash-Thinking，该模型和o1是一类。

第三，国内AI初创公司DeepSeek（中文名：深度求索）于12月26日发布了DeepSeek V3，为DeepSeek V2.5的升级版本，同样是一个通用模型。

需要注意的是，这里我们聚焦于文本模型，文生视频模型如Sora暂不做讨论。

LMSYS聊天机器人竞技场排行榜

这里附上去除了回答风格因素的榜单，即勾选Style Control，这个排名更能直接体现模型本身的能力，因为排除了某些可能影响得分的混淆因素，如回答长度、Markdown格式等。

LiveBench排行榜

1. OpenAI o1

如果不考虑通用模型和推理模型的差异，把所有模型放到一起对比，OpenAI的o1自然是当之无愧的第一名。LMSYS竞技场o1综合评分1328分，由于LMSYS刚刚添加该模型不久，所以投票数还不多，95%置信区间也偏高；LiveBench排行榜o1综合得分75.67分，在这两个排行榜o1均为第一名。

2. 谷歌 Gemini-Exp-1206

用“出道即巅峰”形容Gemini-Exp-1206是一点问题也没有的，LMSYS和LiveBench两个排行榜均为第二名，综合分数分别为1321和64.09分。准确来说，LMSYS竞技场中，Gemini-Exp-1206是和o1并列第一，仅相差7分。

3. 谷歌 Gemini-2.0-Flash-Thinking

谷歌的首个推理模型，基于Gemini-2.0-Flash-Thinking训练的，效果没有o1好在情理之中，但排名一点不含糊，在LMSYS和LiveBench两个排行榜均占据第三名的好成绩，综合得分1309和61.83分。

4. 谷歌 Gemini-2.0-Flash

谷歌Gemini 2.0系列的首发模型Gemini-2.0-Flash-Exp，对标的其实应该是小参数模型那一类，如GPT-4o mini和Claude 3.5 Haiku，其表现也是惊人的好，在LMSYS竞技场得分1296分，位于第4名；在LiveBench排行榜则以59.26的综合分数排在第5名。

谷歌这一波真是凭实力赚口碑。排名这么高的模型，还都免费开放使用，一个字，绝。

5. DeepSeek V3

DeepSeek近期可谓是大火，赚足了眼球。但总得来说，DeepSeek V3在排行榜的表现，对得起这样的关注度。LMSYS竞技场得分1274分，和满血版o1一样，因为刚刚收录，投票数不足，导致置信区间偏大，这个分数可能还没有反应其真实水平，目前位列第8名，也是前10名里唯一的一个国产大模型。LiveBench排行榜综合得分60.45分，排在Gemini-2.0-Flash-Exp的前面，第4名。

值得一提的是，我们需要对一路高歌的声音保持警惕，比如“DeepSeek V3在编程方面已经超越了Claude 3.5 Sonnet”这种言论，从编程的单项榜单也可以看出，DeepSeek V3确实表现不俗，但要说超过Claude 3.5 Sonnet，还并没有，只能说“媲美”。再考虑到它的API定价，就性价比这一点已经强于很多其他模型了。

附上一张LiveBench排行榜“Coding”专项的排名截图。

6. 其他

老牌强者GPT-4o最近的一次更新还是在11月20日，模型名为ChatGPT-4o-latest-1120，位列LMSYS竞技场的并列第一，综合得分1317；LiveBench排行榜则没有收录该模型。

很多小伙伴心里的心头好Claude 3.5 Sonnet最近一次更新是10月22日，这个模型的强势在编程这个单项，综合排名其实不是特别突出，分别是LMSYS竞技场的第8名以及LiveBench排行榜的第6名。但就编程单项而言，两个排行榜均为第1名，和o1并列。

（文：AI信息Gap）

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31