全球最强模型Grok 4来袭，数学基准测试直接100分，年费飙到2万+

作者｜沐风

来源｜AI先锋官

就在今天中午，马斯克的Grok 4如期而至。

有意思的是，网友发现，在发布会开始前的xAI团队合影中，70%都是亚洲面孔。

其团队在直播中称，他们把人类的难题题库做完了，已经几户找不到有意思的同时水平合适的问题来训练Grok 4。

现在，Grok 4 是博士后解题水平，在每一个学科上。

xAI官方账号更是直言，Grok 4是世界上最强大的AI模型。

另外，早在一周前就陆续有X博主爆料，Grok 4的HLE评测45%得分碾压对手。IME竞赛95%正确率，研究生及物理题正确率近90%，数学推理甩出第二名35分等等……

那么它到底有多牛*呢？

我们先看看官方给出的数据：

此次的Grok 4系列共有两个版本：Grok 4和Grok 4 Heavy。

两者都是纯推理模型。

Grok 4 Heavy直接在AIME25 (数学竞赛)上拿了100% 满分，Grok 4也达到了98.8%的高分，除了o3的98.4%外，相较于Claude 4 Opus、Gemini 2.5 Pro等其他模型可以说这属于碾压了。

在GPQA (研究生水平问答)中Grok 4 Heavy 得分88.9%，Grok 4得分87.5%，同样超越Gemini 2.5 Pro、Claude 4 Opus和o3。

在LCB (法律常识)测试中，Grok 4 Heavy得分79.4%，Grok 4得分79.3。

在HMMT25 (高中数学竞赛)测试中，Grok 4 Heavy96.7%，Grok 4得分93.9%。

在难度更大的USAMO25 (美国数学奥赛)上，Grok 4 Heavy 也能取得61.9%的分数，反观Gemini DeepThink和Gemini 2.5 Pro的49.4% 和34.5%分，差距显著。

更夸张的是，在“人类终极考试”（Humanities Last Exam, HLE）中，Grok-4在没有任何工具辅助的情况下，得分 25.4%，使用工具后，分数则飙升至 38.6%。

而更强版本Grok 4 Heavy则是拿到了44.4%的高分，这是目前唯一触及到这一高度的模型。

此前表现最好的谷歌Gemini 2.5 Pro在未使用工具的情况下得分是21.6%，使用工具的情况下也仅仅拿了26.9%，可以说是被Grok 4直接碾压。

在以高难度著称的ARC-AGI 通用人工智能测试中，Grok 4 是首个在 v2 Semi Private 挑战中获得15.9%分数的AI模型，几乎是第二名 Claude Opus 4 的两倍，甚至超越了Kaggle社区的最高成绩。

最后，在 Vending-Bench 模拟经营售货机运营测试中，Grok 4的净资产和销售数量都超过了 Claude Opus 4和人类玩家，位居第一。

Grok 4净赚 $4694，卖了 4569 件货；而Claude Opus 4才净赚 $2077，人类玩家为$844。

除了xAI自己的测试结果，拥有Grok 4早期访问权限的第三方测评机构Artificial Analysis也对其进行了完整基准测试，结果显示，Grok 4以AI指数73分，首次登顶全球第一。

这一分数直接击败了OpenAI的O3、Google的Gemini 2.5 Pro和Anthropic的Claude 4 Opus。

结合这些数据，可以说Grok 4在多个测试中的表现均成为了新 SOTA。

据悉，Grok 4具备自然语音对话功能，能像人类一样顺畅表达。

而且，Grok 4不只是聪明，它甚至“会唱歌”，声音自然，还能理解互联网语言、俚语和段子，成为最懂网络文化的AI之一。

目前，对于Gork-4，在官网付费用户已经可以使用。

但是，在定价方面，Grok 4 Heavy每月订阅价格为300美元/月，3000美元/年，换成人民币就是2万+。可以说是全球最贵。

就算如此，有网友发现，Grok 4 Heavy显示已售罄。

（文：AI先锋官）