马斯克推最强Grok 4！人类终极测试干翻OpenAI，包月费超2千元

决战GPT-5！马斯克抢发Grok 4。

作者 | 李水青

编辑 | 心缘

智东西7月10日报道，今日，马斯克的AI公司xAI发布其最新旗舰大模型Grok 4和多智能体版本Grok 4 Heavy，并推出史上最贵的每月300美元（约合2153元人民币）的AI订阅计划Super Grok Heavy。

在“人类的最后考试”（Humanity’s Last Exam）中，Grok 4在无需“工具”的情况下取得了25.4%的准确率，超过了谷歌Gemini 2.5 Pro的21.6%和OpenAI o3（高版本）的21%。

配备“工具”的Grok 4 Heavy获得44.4%的得分，优于配备工具的Gemini 2.5 Pro的26.9%。

▲Grok 4 Heavy在Humanity’s Last Exam测评中取得第一

“就学术问题而言，Grok 4在各个学科上都比博士水平高，无一例外。”马斯克在直播中说，“有时，它可能缺乏常识，而且它还没有发明新技术或发现新的物理学说，但这只是时间问题。”

▲埃隆·马斯克在直播中发言

xAI还推出了迄今为止最昂贵的AI订阅计划——每月300美元的Super Grok Heavy。订阅者可以抢先体验Grok 4 Heavy，并抢先体验新功能。这些新功能包括但不限于：将于8月推出的AI编码模型，9月推出的多模态智能体，以及10月推出的视频生成模型。

▲每月300美元的Super Grok Heavy正式推出

直播结束后，马斯克在X上发文称：“你可以将整个源代码文件剪切并粘贴到Grok上的查询输入框中，然后@Grok 4会帮你解决，比Cursor更好用。”

▲马斯克在社交平台X上发言

除此之外，xAI推出了Grok 4 API。xAI的企业部门仅成立两个月，但它计划与超大规模企业合作，通过其云平台提供Grok。

近几个月来，xAI不仅拿下100亿美元最新融资，还收购了社交平台X，这也让最新推出的Grok 4成为产业的关注焦点。Grok 4能否成为对打OpenAI计预告今夏推出的GPT-5的有力对手？让我们来一起先睹为快。

01.

Grok 4测评赶超OpenAI o3

马斯克：科研能力强过人类博士

马斯克在直播中称，在人文、语言、数学、物理、工程等多个基准测试中，Grok 4都取得了好成绩。“有些人认为AI不能推理，但Grok 4的推理能力可以超越人类水平，比几乎所有学科的研究生同时都聪明。”马斯克说。

xAI的研究人员称，Humanity’s Last Exam测试极具挑战性，总共有2500个问题，包括数学、自然科学、工程以及所有人文学科，问题广泛且都是博士甚至高级研究水平，Grok 4在这些问题上可以得到很好的分数。

Grok 4在无需“工具”的情况下，在“测试中获得了25.4%的准确率，超过了谷歌Gemini 2.5 Pro的21.6%和OpenAI o3（高版本）的21%。马斯克称，在学术问题方面，Grok 4比每个学科的博士水平都要好，现在没有例外。他预测Grok 4最快今年就能去发明新技术了，两年之内就能发现新物理学说。

在GPQA、AIME25、LCB（Jan-May）、HMMT25等多项测评中，Grok 4都超越了OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus等模型。

而在ARC-AGI-2测试中，Grok 4取得了新的最高得分，得分为16.2%。ARC-AGI-2测试是另一项高难度基准测试，包含类似谜题的问题，要求AI识别视觉模式。Grok的得分几乎是排名第二的商业AI模型Claude Opus 4得分的两倍。

02.

训练量级达到Grok 2 100倍

Grok 4将与人形机器人互动

从Grok2到Grok 4，每一次迭代xAI都增加了一个数量级的训练，因此Grok 4的训练量级达到了Grok 2的100倍，这使得智力增长非常显著。

这是xAI第一次像预训练一样扩大训练规模。基于拥有10万块H100 GPU的超级算力中心，训练主要包括两种类型：一个是从Grok 2到Grok 3到的预训练，一个是从Grok 3到Grok 4在推理中投入了大量的算力。

谈及幕后，如图所示，当投入越来越多的训练算力，模型开始逐渐变得越来越聪明，最终在没有任何工具的情况下，解决了四分之一的Humanity’s Last Exam测试问题。

接下来研发人员做的是向模型中添加工具功能。与Grok 3不同的是，研发人员使其更加本地化，将工具放入训练中，从而显着提高了模型使用这些工具的能力。

马斯克透露，今年晚些时候，Grok 4还将融合有限元分析、计算流体动力学等更强大的工具进行训练，将打造非常精确的物理模拟器，比如去做提供精确的黑洞模拟等任务。最终，Grok 4最大的区别在于，其将能够通过人形机器人（如擎天柱）与现实世界互动。

马斯克说，我们正处于智能大爆炸的开端。我们需要确保AI是一个好的AI，安全最重要的事，AI需要最大限度地寻求真理。你可以把AI看作是超级天才的孩子，最终会比你聪明，但你仍然可以灌输正确的价值观并鼓励它长成想要的样子。

除了计算之外，还有一个技术问题是数据瓶颈。研发人员称，在强化学习训练过程中，他们实际上已经没有可用来测试的问题了，已有的问题对AI来说正在迅速变得微不足道。

但马斯克称，最能出色判断事物的就是现实。如果物理学是定律，最终其他一切都是建议。你不能打破物理。因此，我认为对于AI的最终测试是现实。就像你发明一项新技术，比如改进汽车或火箭，它有效吗？现实才是最终的裁判。所以这将是一个围绕现实的强化学习闭环。

03.

现场演示：看论文进行现实模拟

语音模式延迟减少一半

xAI研究员在直播中演示了Grok 4回答问题的能力。

Grok 4的一大特点是能够理解世界，并通过利用工具来解决难题。比如要求Grok 4生成两个黑洞碰撞的可视化图像，它有一些清晰的思考过程，比如，为了让它真正可见，Grok 4考虑到通过海浪的形式扩放它的规模。从思考过程看，Grok 4使用了搜索，从一堆链接中收集结果，参考了现有的现实世界数据，而且还阅读了分析引力波模型的本科论文。

除此之外，xAI还演示了Grok 4解答数学问题、创建一个基于X个帖子的时间线、查看Humanity’s Last Exam测试成绩等问题。

在多模态测试方面，Grok 4分数略有下降。马斯克坦言，Grok 4的基本弱点是它部分盲目地理解图像生成偏好。Grok 4的多模态理解能力正在改进，这些问题将在几周内实现改善。

Grok 4的语音模式也进一步更新，已将延迟减少了一半。Grok 4今天推出一系列更具自然性和韵律的新声音，API版本也将发布。

04.

推出Grok 4企业API

编程、多模态、视频模型在路上

xAI的企业部门仅成立两个月，但它正在通过其API发布Grok 4，已有各行业企业通过云平台使用了Grok 4。

聚焦现实的自动售货机商业场景，xAI的客户团队采用了大模型管理库存、联系供应商，大多数模型在去进行长线任务时都很困难。但使用了Grok 4 API之后，团队获得了令人印象深刻的结果。它设法运行模拟的时间翻了一倍，得分也翻了一倍，前后能保持较强一致性。

聚焦AI创作游戏方面，Grok 4可以在4个小时内制作的第一人称射击游戏。制作游戏并不一定是对游戏的核心逻辑进行编码，而是去寻找所有资源、文件素材，以创建一个具有视觉吸引力的游戏。对于开发人员来说，你可以专注于核心开发本身，让Grok 4去整理所有资产，自动化完成任务。

未来Grok 4将具有出色的视频理解和改进的工具使用能力，例如可以使用虚幻引擎生成艺术品模型，然后创建一个可在PC或手机上运行的可执行文件。xAI预计第一个真正优秀的AI视频游戏将在明年出现。

除此之外，马斯克透露，团队目前正在加大力度训练编码模型，在未来几周内将推出一个专业的编码模型。编码任务展现了Grok 4的弱点，即多模态能力。就像透过玻璃眯着眼睛看世界，看到所有模糊的特征，并试图感知它。xAI将在下一代模型中看到的最直接改进是，模型在理解图像和音频方面会能力逐步提高。

在视频模型方面，xAI将在接下来三到四周开始训练一个新的视频模型，具备出色视频生成和理解能力。

05.

结语：抢发Grok 4

马斯克对战GPT-5

Grok 4在高难度测试中展现的“超越博士水平”的推理能力，在理解和解决复杂问题方面迈出了关键一步。其通过工具加持实现的新能力，以及雄心勃勃的多模态与视频生成路线图，展现了xAI与即将发布的OpenAI GPT-5竞赛的决心。

在To B端落地，xAI正加速将Grok 4的能力从企业应用到零售、游戏创作等领域。同时，马斯克强调的“安全至上”与“寻求真理”的AI发展原则，以及对现实世界作为最终测试场的认知，为这场席卷全球的智能爆炸提供了不可或缺的思考维度。

（

（文：智东西）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复