Grok 4基准测试被爆极其优异，人类终极考试成绩飙升到45%，碾压o3 和Gemini的20%

Grok-4的基准测试数据在网上疯传。

刚刚，API开发者ʟᴇɢɪᴛ(@legit_api)率先曝光了Grok-4和Grok-4 Code的测试成绩，数字让人倒吸一口凉气：HLE（人类最后的考试）上达到35%，使用推理后更是飙升到45%！

这是什么概念？

要知道，o3和Gemini在HLE上的得分仅为20%左右。而如果这个数据属实，Grok-4相当于直接翻了一倍多。

除了HLE，其他基准测试的表现同样一马当先：

GPQA达到87-88%
SWE Bench上，Grok-4 Code拿下**72-75%**的成绩

leo 🐈(@synthwavedd)评论称：

这些如果是真的，都是SOTA（最先进）成绩。希望它在实际使用中也能这么好。

但并非所有人都买账。

K Aayush Mazumdar(@Tweeting_Aayush)立即提出了质疑：

SWE-Bench是验证过的吗？没有工具/框架的情况下？

SWE Bench测试的是模型解决真实软件工程问题的能力，如果使用了额外的工具或框架，成绩的含金量就要打折扣了。

更多人关心的是：这个模型到底什么时候发布？

Zhuo Wang(@ZhuoWang1022019)直接发问：

如果它这么好，什么时候发布？

The Mandorlarian(@mandorlarian)则表现得更加悲观：

兄弟我真的不能。不认为这个模型会发布，空洞的数字什么都不意味着。

为了让大家更直观地理解这些成绩，mark erdmann(@markerdmann)贴出了与其他前沿模型的对比图：

从对比中可以看出，若数据准确，则Grok-4在多个维度上都超越了现有的所有顶尖模型。

但HLE 45%的成绩引发了最大的争议。

AI研究者xlr8harder(@xlr8harder)指出了一个关键问题：

我才意识到HLE的所有题目都已经公开，没有保留测试集。这太不幸了。

这说的是，如果测试题目都是公开的，模型就有可能在训练时“见过”这些题目，导致成绩虚高。

Ethan Mollick(@emollick)教授对此回应道：

如果Grok 4泄露的基准测试是对的，HLE有保留的问题集就非常有用了，因为传闻中的45%分数比o3和Gemini的20%左右有很大提升，这会相当令人印象深刻（假设没有数据污染）。

他还贴出了官方文档，证明HLE确实有保留测试集：

但质疑声并未平息。

Alfredo González-Espinoza(@AGonzalezEsp)坚持认为：

看起来数据被污染了。考虑到Grok 3在ARC-AGI测试上的结果，他们很可能使用了被污染的数据。

Hasan Can(@HCSolakoglu)表达了担忧：

HLE分数高度可疑，这将是一个基准创建者需要立即在隐藏集上测试的模型。但如果你问我，这都是脚手架和共识技巧。

有趣的是，itsdrizzy(@itsdrizzy4)从另一个角度分析了这些数据：

ArtificialAnalysis的独立基准测试显示o3在GPQA上得分82.7%，这意味着Grok 4比o3高出近10%。如果o1到o3（一代）从~75%提升到82.7%（7.7%的差异），Grok 4基本上就是o4级别（~5%的差异）。

除了各种质疑，也有支持者们在积极回应。

Jefferson Way(@TheJeffersonWay)为xAI辩护：

我是说他们有20万个GPU，以400 TPS运行grok 3 mini，为什么很难相信？

Prashant(@Prashant_1722)则兴奋地转发：

Grok 4和Grok 4 code 🔥🔥

PDV Uberjeets CTO(@PDVhw)甚至贴出了更多细节图：

Sughu(@sughanthans1)总结道：

如果这是真的，Grok 4真的做到了。

muzz(@muzzkek)则提醒大家需要看相对分数：

加上相对评分也不会要你的命。

而Mel Gibson 2.0(@AIMelGibson) 则提出了一个实际的观点：

我最感兴趣的是幻觉率，如果这能在基准测试上击败o3，但幻觉率也低得多，那我们就找到了什么。对我来说，这是阻止o3成为极其有用的模型的唯一因素。

CuteRobot(@lukeNukemAI)则思考得更远：

想象一下当所有基准测试都被打败时？他们将如何测试LLM？

不得不说，45%的HLE成绩若是属实，那马斯克的xAI 将后来居上，并真的将一骑绝尘了可能要。

但截止目前，相关数据仍为传言，未经官方证实。

而网友们，一边是兴奋和期待，一边是质疑和担忧。

这种撕裂也反映了当下大家的心态：我们既渴望突破，又害怕被欺骗。

无论Grok-4的成绩是否真实，有一点是确定的：这场关于AI能力边界的竞赛，才刚刚开始。

（文：AGI Hunt）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复