2025年2月LLM最新排名:Grok 3逆袭亮眼,Claude 3.7 Sonnet一鸣惊人!

用一个词来形容 AI 大模型领域过去的一个月,非“风云诡谲”莫属。


先是 DeepSeek,成功利用“性价比”优势下沉到了世界的各个角落。然后,凭一己之力带动了整个行业的“疯狂内卷”。

2月初,谷歌发布 Gemini 2.0 系列模型。

2月中,马斯克旗下的 xAI 强势发布并免费开放 Grok 3 模型。

2月末,沉寂了许久的 Anthropic 正式发布 Claude 3.7 Sonnet,全球首个混合架构模型。

紧接着,2月的最后一天,OpenAI 发布了据说是史上最大、最强的非思考模型 GPT-4.5

今天,就用一文来记录这风云诡谲而又波澜壮阔的一个月。


本次的 AI 大模型排名参考 2 个常用的排行榜:LiveBench 和 LMSYS

其中,LiveBench 更加纯粹和客观,提供无污染的测试数据和客观的评分。LiveBench 的测试题目每月更新,包括最新的数学竞赛、arXiv论文、新闻和数据集,涵盖数学、编码、推理、语言理解等多个方面,避免模型因训练数据污染而获得虚假高分。LiveBench 的特色在于题目有挑战性,即使顶级模型的准确率也普遍低于70%,分数较为可靠。

LMSYS 机器人竞技排行榜(Chatbot Arena)则更为主观,是一个基于用户偏好的动态排行榜,由加州大学伯克利分校开发。LMSYS 采用双模型匿名对战模式,用户提出问题并投票选出更好的回答,通过 Elo 评分系统排名,至今已收集超过270万次投票。这种评估方法注重模型在真实场景中的实用性,而非单纯的知识或智能测试。


接下来上2025年2月最新的 AI 大模型排名。

LiveBench

LiveBench 的特点是把非思考模型(如 GPT-4oDeepSeek-V3)和推理模型(如 o1DeepSeek-R1)放在一起比较,不搞特殊。

最新的排名中,Claude 3.7 Sonnet-Thinking 模式超越 o3-mini-higho1Grok 3-Thinking以及 DeepSeek-R1 荣登榜首。

在非思考模型中,参数量最大的 GPT-4.5 当仁不让地夺得了第一名,甚至超过了谷歌的推理模型 Gemini 2.0 Flash Thinking;接下来是 Claude 3.7 Sonnet(非思考模式),Gemini 2.0 Pro

值得一提的是,阿里通义团队过年期间新推出的 Qwen 2.5-Max 模型赫然榜上有名,超过了早几个月发布的 DeepSeek-V3

LMSYS

LMSYS 排行榜共有 2 类排名:综合排名和 StyleCtrl 排名。综合排名直接按照模型所获得的综合分数来排;而 StyleCtrl(Style Control)排名则是在综合分数的基础上加入了风格控制,通过调整响应长度和 Markdown 格式使用等变量的影响,试图剔除这些非核心因素对排名的干扰,从而更纯粹地反映模型的实际能力。

我个人更倾向于查看 LMSYS 的 StyleCtrl 排名。

Upper-bound(UB)综合排名

在最新的综合排名里,GPT-4.5 挺惨的,头名的宝座屁股还没有坐热,就被 Grok 3 挤下去了。Grok 3 以1412的高分位列第一名;接着是 GPT-4.5Gemini 2.0 ProGPT-4o 和 DeepSeek-R1

你会发现,无论是第一名的 Grok 3 还是第二名的 GPT-4.5,它们有一个共同特点:模型“情商”高。LMSYS 里的分数本就是真实用户打出来的,“情商”高的模型得分高也是理所当然。

StyleCtrl(Style Control)排名

而加入了风格控制的考虑,即剔除了回答长度、回答的格式等影响因素后,排名又是另一番光景了。

第一名换成了 GPT-4.5Grok 3 跌到了第三名。另外值得一提的是,Claude 3.7 Sonnet 在 StyleCtrl 排行榜里的排名显著上升,排到了第五名。

DeepSeek-R1 则排到了第三名。考虑到 DeepSeek-R1 “白菜价”般的 API 价格,这模型质量和性价比简直是要拉满了。



最后,附上 LiveBench 和 LMSYS 排行榜地址,感兴趣的小伙伴可以查看细节,比如各个模型的分类排名。

LiveBench:https://livebench.ai

LMSYS:https://lmarena.ai/leaderboard



我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。



(文:AI信息Gap)

欢迎分享

发表评论