Grok 4刷新ARC-AGI-2纪录：15.9%碾压所有公开模型，我们离AGI还有多远？

xAI的Grok 4在ARC-AGI-2测试中拿下15.9%，成为全球最强公开AI模型。

ARC Prize主席Greg Kamradt(@GregKamradt)在推特上详细还原了整个测试过程。

24小时前，xAI团队突然联系ARC Prize，表示想要在ARC-AGI上测试他们的最新模型Grok 4。

Greg Kamradt透露，他们早就听说了相关传闻，知道这个模型会很厉害，但没想到它会直接成为ARC-AGI上的第一名公开模型。

24小时紧急测试

Greg Kamradt(@GregKamradt)详细介绍了测试流程：

昨天，我们与xAI团队的Jimmy进行了交流，他希望我们验证他们的Grok 4分数。他们在ARC-AGI-1和ARC-AGI-2公开评估集上进行了自己的测试。

为了验证分数并测量可能的过拟合问题，ARC Prize团队在半私有评估集上对新模型进行了独立测试。

Greg Kamradt介绍了他们的测试政策：

不保留数据
模型检查点必须用于公开使用
为突发测试临时提高速率限制

xAI团队同意了所有条件，测试随即开始。不过测试过程并不顺利——最初使用普通请求时遇到了超时错误，切换到流式传输后才解决了问题。

ARC-AGI-2：AI 的终极考验

很多人可能不知道ARC-AGI是什么。

简单来说，ARC-AGI是一个专门测试AI「流体智能」的基准测试。

所谓流体智能，就是从少量训练样例中学习迷你技能，然后在测试时展示这种技能的能力。

在ARC-AGI-2的排行榜上，Grok 4的表现极其亮眼：

Grok 4 (Thinking)：15.9%
Claude Opus 4 (Thinking 16K)：8.6%
o3 (High)：6.5%
o4-mini (High)：6.1%
Claude Sonnet 4 (Thinking 16K)：5.9%

相比之下，人类在ARC-AGI-2上的表现是100%。

打破噪声屏障

Greg Kamradt特别强调了15.9%这个数字的重要性：

之前的最高分是~8%（由Opus 4创造）。低于10%基本都是噪声。

获得15.9%突破了噪声屏障，Grok 4正在展现非零水平的流体智能。

这意味着，Grok 4不再是简单地匹配模式或记忆答案，而是真正在进行某种形式的「理解」和「推理」。

更令人惊讶的是，这个成绩甚至超过了在Kaggle竞赛中提交的专门构建的解决方案——

那些可都是人类专家精心设计的算法。

网友质疑

面对这个突破性的成绩，社区中也出现了不少质疑声音。

Permaximum Judicium(@permaximum88)提出了尖锐的问题：

好是好，但是：*模型检查点必须用于公开使用。那么为什么所谓的o3-preview仍然在基准测试中？它从未发布，而且在这一点上几乎可以肯定它是为ARC-AGI进行了大量优化的。
为什么你们只给OpenAI这样的特权？

Dhananjay Kajla(@kajla_dhananjay)则从更深层次分析了这个问题，他引用了古德哈特定律：

当一个指标成为目标时，它就不再是一个好的指标。

他进一步解释道：

我们（你、我和ARC）都同意目标是AGI。然而AGI的描述是复杂和主观的。我们能做的最好的事情是取一个AGI实体（比如我们）的一些属性，并测试机器是否具有这些属性。

他用一个简单的例子说明了这个问题：假设目标是制造一台能说出字典中任何单词的机器。如果评估指标是「能否说出’打印机’」，那么新机器的开发者就会特别优化「打印机」这个词，而忽略其他词汇。结果看起来机器变得更智能了，但实际上只是指标变得更糟糕了。

这不是机器变得更好，而是指标变得更差。所以我们会提出新的指标，然后循环继续……

有趣的是，Kuang Xu(@ProfKuangXu)注意到了一个细节：

为什么Gemini系列没有出现在这个图表上？

dacapo(@dacapo_go)则再次关心起开源问题：

这是否意味着grok 4将有开放权重？

写在最后

尽管Grok 4的成绩令人印象深刻，但Greg Kamradt也清醒地指出：

但任务还没有结束。我们需要新的想法来解决ARC-AGI-2。仅靠规模是无法达到目标的。

ARC-AGI-2的难点在于它要求AI系统具备真正的泛化能力：不是记忆大量模式，而是从少量例子中提取规律并应用到全新的问题上。

这正是人类智能的核心特征之一。

目前Grok 4的15.9%虽然是一个突破，但离人类的100%还有巨大差距。

不过，Grok 4的强大不仅体现在ARC-AGI-2上。

据今天直播中公布的最新数据，Grok 4在多个基准测试中都取得了压倒性的第一：

Humanity’s Last Exam（通用难题）：44.4%，第二名仅26.9%
GPQA（研究生难题）：88.9%，第二名86.4%
AIME 2025（数学）：100%，第二名98.4%
Harvard MIT Math：96.7%，第二名82.5%
USAMO25（数学）：61.9%，第二名49.4%
LiveCodeBench（编程）：79.4%，第二名75.8%

更为重要的是，Grok 4的定价也相当便宜：$3/百万输入token，$15/百万输出token，256k上下文窗口。

Elon Musk(@elonmusk) 在直播结束后也再次表示：

Grok 4已经到了基本上永远不会在数学/物理考试题上出错的地步，除非是精心设计的对抗性问题。

它可以识别问题中的错误或歧义，然后修正问题中的错误或回答歧义问题的每个变体。

并称，Grok 4「在每个学科上都可能比博士水平更好，没有例外」。

最后，来个投票吧：

[1]

ARC Prize官网: https://arcprize.org/

[2]

ARC-AGI排行榜: https://arcprize.org/leaderboard

[3]

AI推理前沿博客文章: https://arcprize.org/blog/which-ai-reasoning-model-is-best

[4]

复现结果: ttps://github.com/arcprize/arc-agi-benchmarking

（文：AGI Hunt）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

24小时紧急测试

ARC-AGI-2：AI 的终极考验

打破噪声屏障

网友质疑

写在最后

发表评论 取消回复

发表评论取消回复