全球最强模型Grok 4来袭,数学基准测试直接100分,年费飙到2万+

作者|沐风

来源AI先锋官


就在今天中午,马斯克的Grok 4如期而至。
有意思的是,网友发现,在发布会开始前的xAI团队合影中,70%都是亚洲面孔。
其团队在直播中称,他们把人类的难题题库做完了,已经几户找不到有意思的同时水平合适的问题来训练Grok 4。
现在,Grok 4 是博士后解题水平,在每一个学科上。
xAI官方账号更是直言,Grok 4是世界上最强大的AI模型。
另外,早在一周前就陆续有X博主爆料,Grok 4的HLE评测45%得分碾压对手。IME竞赛95%正确率,研究生及物理题正确率近90%,数学推理甩出第二名35分等等……
那么它到底有多牛*呢?
我们先看看官方给出的数据:
此次的Grok 4系列共有两个版本:Grok 4和Grok 4 Heavy。
两者都是纯推理模型。
Grok 4 Heavy直接在AIME25 (数学竞赛)上拿了100% 满分,Grok 4也达到了98.8%的高分,除了o3的98.4%外,相较于Claude 4 Opus、Gemini 2.5 Pro等其他模型可以说这属于碾压了。
在GPQA (研究生水平问答)中Grok 4 Heavy 得分88.9%,Grok 4得分87.5%,同样超越Gemini 2.5 Pro、Claude 4 Opus和o3。
在LCB (法律常识)测试中,Grok 4 Heavy得分79.4%,Grok 4得分79.3。

在HMMT25 (高中数学竞赛)测试中,Grok 4 Heavy96.7%,Grok 4得分93.9%。
在难度更大的USAMO25 (美国数学奥赛)上,Grok 4 Heavy 也能取得61.9%的分数,反观Gemini DeepThink和Gemini 2.5 Pro的49.4% 和34.5%分,差距显著。
更夸张的是,在“人类终极考试”(Humanities Last Exam, HLE)中,Grok-4在没有任何工具辅助的情况下,得分 25.4%,使用工具后,分数则飙升至 38.6%。

而更强版本Grok 4 Heavy则是拿到了44.4%的高分,这是目前唯一触及到这一高度的模型。

此前表现最好的谷歌Gemini 2.5 Pro在未使用工具的情况下得分是21.6%,使用工具的情况下也仅仅拿了26.9%,可以说是被Grok 4直接碾压。
在以高难度著称的ARC-AGI 通用人工智能测试中,Grok 4 是首个在 v2 Semi Private 挑战中获得15.9%分数的AI模型,几乎是第二名 Claude Opus 4 的两倍,甚至超越了Kaggle社区的最高成绩。
最后,在 Vending-Bench 模拟经营售货机运营测试中,Grok 4的净资产和销售数量都超过了 Claude Opus 4和人类玩家,位居第一。
Grok 4净赚 $4694,卖了 4569 件货;而Claude Opus 4才净赚 $2077,人类玩家为$844。
除了xAI自己的测试结果,拥有Grok 4早期访问权限的第三方测评机构Artificial Analysis也对其进行了完整基准测试,结果显示,Grok 4以AI指数73分,首次登顶全球第一。
这一分数直接击败了OpenAI的O3、Google的Gemini 2.5 Pro和Anthropic的Claude 4 Opus。
结合这些数据,可以说Grok 4在多个测试中的表现均成为了新 SOTA。
据悉,Grok 4具备自然语音对话功能,能像人类一样顺畅表达。
而且,Grok 4不只是聪明,它甚至“会唱歌”,声音自然,还能理解互联网语言、俚语和段子,成为最懂网络文化的AI之一。
目前,对于Gork-4,在官网付费用户已经可以使用。
但是,在定价方面,Grok 4 Heavy每月订阅价格为300美元/月,3000美元/年,换成人民币就是2万+。可以说是全球最贵。
就算如此,有网友发现,Grok 4 Heavy显示已售罄。
 

(文:AI先锋官)

发表评论