Grok 4刷新ARC-AGI-2纪录:15.9%碾压所有公开模型,我们离AGI还有多远?

xAI的Grok 4在ARC-AGI-2测试中拿下15.9%,成为全球最强公开AI模型。

ARC Prize主席Greg Kamradt(@GregKamradt)在推特上详细还原了整个测试过程。

24小时前,xAI团队突然联系ARC Prize,表示想要在ARC-AGI上测试他们的最新模型Grok 4。

Greg Kamradt透露,他们早就听说了相关传闻,知道这个模型会很厉害,但没想到它会直接成为ARC-AGI上的第一名公开模型。

24小时紧急测试

Greg Kamradt(@GregKamradt)详细介绍了测试流程:

昨天,我们与xAI团队的Jimmy进行了交流,他希望我们验证他们的Grok 4分数。他们在ARC-AGI-1和ARC-AGI-2公开评估集上进行了自己的测试。

为了验证分数并测量可能的过拟合问题,ARC Prize团队在半私有评估集上对新模型进行了独立测试。

Greg Kamradt介绍了他们的测试政策:

  • 不保留数据
  • 模型检查点必须用于公开使用
  • 为突发测试临时提高速率限制

xAI团队同意了所有条件,测试随即开始。不过测试过程并不顺利——最初使用普通请求时遇到了超时错误,切换到流式传输后才解决了问题。

ARC-AGI-2:AI 的终极考验

很多人可能不知道ARC-AGI是什么。

简单来说,ARC-AGI是一个专门测试AI「流体智能」的基准测试。

所谓流体智能,就是从少量训练样例中学习迷你技能,然后在测试时展示这种技能的能力。

在ARC-AGI-2的排行榜上,Grok 4的表现极其亮眼:

  • Grok 4 (Thinking):15.9%
  • Claude Opus 4 (Thinking 16K):8.6%
  • o3 (High):6.5%
  • o4-mini (High):6.1%
  • Claude Sonnet 4 (Thinking 16K):5.9%

相比之下,人类在ARC-AGI-2上的表现是100%

打破噪声屏障

Greg Kamradt特别强调了15.9%这个数字的重要性:

之前的最高分是~8%(由Opus 4创造)。低于10%基本都是噪声。

获得15.9%突破了噪声屏障,Grok 4正在展现非零水平的流体智能。

这意味着,Grok 4不再是简单地匹配模式或记忆答案,而是真正在进行某种形式的「理解」和「推理」。

更令人惊讶的是,这个成绩甚至超过了在Kaggle竞赛中提交的专门构建的解决方案——

那些可都是人类专家精心设计的算法。

网友质疑

面对这个突破性的成绩,社区中也出现了不少质疑声音。

Permaximum Judicium(@permaximum88)提出了尖锐的问题:

好是好,但是:*模型检查点必须用于公开使用。那么为什么所谓的o3-preview仍然在基准测试中?它从未发布,而且在这一点上几乎可以肯定它是为ARC-AGI进行了大量优化的。
为什么你们只给OpenAI这样的特权?

Dhananjay Kajla(@kajla_dhananjay)则从更深层次分析了这个问题,他引用了古德哈特定律:

当一个指标成为目标时,它就不再是一个好的指标。

他进一步解释道:

我们(你、我和ARC)都同意目标是AGI。然而AGI的描述是复杂和主观的。我们能做的最好的事情是取一个AGI实体(比如我们)的一些属性,并测试机器是否具有这些属性。

他用一个简单的例子说明了这个问题:假设目标是制造一台能说出字典中任何单词的机器。如果评估指标是「能否说出’打印机’」,那么新机器的开发者就会特别优化「打印机」这个词,而忽略其他词汇。结果看起来机器变得更智能了,但实际上只是指标变得更糟糕了。

这不是机器变得更好,而是指标变得更差。所以我们会提出新的指标,然后循环继续……

有趣的是,Kuang Xu(@ProfKuangXu)注意到了一个细节:

为什么Gemini系列没有出现在这个图表上?

dacapo(@dacapo_go)则再次关心起开源问题:

这是否意味着grok 4将有开放权重?

写在最后

尽管Grok 4的成绩令人印象深刻,但Greg Kamradt也清醒地指出:

但任务还没有结束。我们需要新的想法来解决ARC-AGI-2。仅靠规模是无法达到目标的。

ARC-AGI-2的难点在于它要求AI系统具备真正的泛化能力:不是记忆大量模式,而是从少量例子中提取规律并应用到全新的问题上。

这正是人类智能的核心特征之一。

目前Grok 4的15.9%虽然是一个突破,但离人类的100%还有巨大差距。

不过,Grok 4的强大不仅体现在ARC-AGI-2上。

据今天直播中公布的最新数据,Grok 4在多个基准测试中都取得了压倒性的第一

  • Humanity’s Last Exam(通用难题):44.4%,第二名仅26.9%
  • GPQA(研究生难题):88.9%,第二名86.4%
  • AIME 2025(数学):100%,第二名98.4%
  • Harvard MIT Math:96.7%,第二名82.5%
  • USAMO25(数学):61.9%,第二名49.4%
  • LiveCodeBench(编程):79.4%,第二名75.8%

更为重要的是,Grok 4的定价也相当便宜$3/百万输入token,$15/百万输出token,256k上下文窗口。

Elon Musk(@elonmusk) 在直播结束后也再次表示:

Grok 4已经到了基本上永远不会在数学/物理考试题上出错的地步,除非是精心设计的对抗性问题。

它可以识别问题中的错误或歧义,然后修正问题中的错误或回答歧义问题的每个变体。

并称,Grok 4「在每个学科上都可能比博士水平更好,没有例外」。

最后,来个投票吧:




[1]

ARC Prize官网: https://arcprize.org/

[2]

ARC-AGI排行榜: https://arcprize.org/leaderboard

[3]

AI推理前沿博客文章: https://arcprize.org/blog/which-ai-reasoning-model-is-best

[4]

复现结果: ttps://github.com/arcprize/arc-agi-benchmarking


(文:AGI Hunt)

发表评论