马斯克推最强Grok 4!人类终极测试干翻OpenAI,包月费超2千元

决战GPT-5!马斯克抢发Grok 4。
作者 |  李水青
编辑 |  心缘
智东西7月10日报道,今日,马斯克的AI公司xAI发布其最新旗舰大模型Grok 4和多智能体版本Grok 4 Heavy,并推出史上最贵的每月300美元(约合2153元人民币)的AI订阅计划Super Grok Heavy
在“人类的最后考试”(Humanity’s Last Exam)中,Grok 4在无需“工具”的情况下取得了25.4%的准确率,超过了谷歌Gemini 2.5 Pro的21.6%OpenAI o3(高版本)的21%
配备“工具”的Grok 4 Heavy获得44.4%的得分,优于配备工具的Gemini 2.5 Pro的26.9%

Grok 4 Heavy在Humanity’s Last Exam测评中取得第一

“就学术问题而言,Grok 4在各个学科上都比博士水平高,无一例外。”马斯克在直播中说,“有时,它可能缺乏常识,而且它还没有发明新技术或发现新的物理学说,但这只是时间问题。”

▲埃隆·马斯克在直播中发言

xAI还推出了迄今为止最昂贵的AI订阅计划——每月300美元的Super Grok Heavy。订阅者可以抢先体验Grok 4 Heavy,并抢先体验新功能。这些新功能包括但不限于:将于8月推出的AI编码模型,9月推出的多模态智能体,以及10月推出的视频生成模型。
每月300美元的Super Grok Heavy正式推出
直播结束后,马斯克在X上发文称:“你可以将整个源代码文件剪切并粘贴到Grok上的查询输入框中,然后@Grok 4会帮你解决,比Cursor更好用。”

▲马斯克在社交平台X上发言

除此之外,xAI推出了Grok 4 API。xAI的企业部门仅成立两个月,但它计划与超大规模企业合作,通过其云平台提供Grok。
近几个月来,xAI不仅拿下100亿美元最新融资,还收购了社交平台X,这也让最新推出的Grok 4成为产业的关注焦点。Grok 4能否成为对打OpenAI计预告今夏推出的GPT-5的有力对手?让我们来一起先睹为快。

01.
Grok 4测评赶超OpenAI o3
马斯克:科研能力强过人类博士


马斯克在直播中称,在人文、语言、数学、物理、工程等多个基准测试中,Grok 4都取得了好成绩。“有些人认为AI不能推理,但Grok 4的推理能力可以超越人类水平,比几乎所有学科的研究生同时都聪明。”马斯克说。
xAI的研究人员称,Humanity’s Last Exam测试极具挑战性,总共有2500个问题,包括数学、自然科学、工程以及所有人文学科,问题广泛且都是博士甚至高级研究水平,Grok 4在这些问题上可以得到很好的分数。
Grok 4在无需“工具”的情况下,在“测试中获得了25.4%的准确率,超过了谷歌Gemini 2.5 Pro的21.6%和OpenAI o3(高版本)的21%。马斯克称,在学术问题方面,Grok 4比每个学科的博士水平都要好,现在没有例外。他预测Grok 4最快今年就能去发明新技术了,两年之内就能发现新物理学说。

在GPQA、AIME25、LCB(Jan-May)、HMMT25等多项测评中,Grok 4都超越了OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus等模型。

而在ARC-AGI-2测试中,Grok 4取得了新的最高得分,得分为16.2%。ARC-AGI-2测试是另一项高难度基准测试,包含类似谜题的问题,要求AI识别视觉模式。Grok的得分几乎是排名第二的商业AI模型Claude Opus 4得分的两倍。

02.
训练量级达到Grok 2 100倍
Grok 4将与人形机器人互动


从Grok2到Grok 4,每一次迭代xAI都增加了一个数量级的训练,因此Grok 4的训练量级达到了Grok 2的100倍,这使得智力增长非常显著。
这是xAI第一次像预训练一样扩大训练规模。基于拥有10万块H100 GPU的超级算力中心,训练主要包括两种类型:一个是从Grok 2到Grok 3到的预训练,一个是从Grok 3到Grok 4在推理中投入了大量的算力。
谈及幕后,如图所示,当投入越来越多的训练算力,模型开始逐渐变得越来越聪明,最终在没有任何工具的情况下,解决了四分之一的Humanity’s Last Exam测试问题。
接下来研发人员做的是向模型中添加工具功能。与Grok 3不同的是,研发人员使其更加本地化,将工具放入训练中,从而显着提高了模型使用这些工具的能力。
马斯克透露,今年晚些时候,Grok 4还将融合有限元分析、计算流体动力学等更强大的工具进行训练,将打造非常精确的物理模拟器,比如去做提供精确的黑洞模拟等任务。最终,Grok 4最大的区别在于,其将能够通过人形机器人(如擎天柱)与现实世界互动。
马斯克说,我们正处于智能大爆炸的开端。我们需要确保AI是一个好的AI,安全最重要的事,AI需要最大限度地寻求真理。你可以把AI看作是超级天才的孩子,最终会比你聪明,但你仍然可以灌输正确的价值观并鼓励它长成想要的样子。
除了计算之外,还有一个技术问题是数据瓶颈。研发人员称,在强化学习训练过程中,他们实际上已经没有可用来测试的问题了,已有的问题对AI来说正在迅速变得微不足道。
但马斯克称,最能出色判断事物的就是现实。如果物理学是定律,最终其他一切都是建议。你不能打破物理。因此,我认为对于AI的最终测试是现实。就像你发明一项新技术,比如改进汽车或火箭,它有效吗?现实才是最终的裁判。所以这将是一个围绕现实的强化学习闭环。

03.
现场演示:看论文进行现实模拟
语音模式延迟减少一半


xAI研究员在直播中演示了Grok 4回答问题的能力。
Grok 4的一大特点是能够理解世界,并通过利用工具来解决难题。比如要求Grok 4生成两个黑洞碰撞的可视化图像,它有一些清晰的思考过程,比如,为了让它真正可见,Grok 4考虑到通过海浪的形式扩放它的规模。从思考过程看,Grok 4使用了搜索,从一堆链接中收集结果,参考了现有的现实世界数据,而且还阅读了分析引力波模型的本科论文。
除此之外,xAI还演示了Grok 4解答数学问题、创建一个基于X个帖子的时间线、查看Humanity’s Last Exam测试成绩等问题。
在多模态测试方面,Grok 4分数略有下降。马斯克坦言,Grok 4的基本弱点是它部分盲目地理解图像生成偏好。Grok 4的多模态理解能力正在改进,这些问题将在几周内实现改善。
Grok 4的语音模式也进一步更新,已将延迟减少了一半。Grok 4今天推出一系列更具自然性和韵律的新声音,API版本也将发布。

04.
推出Grok 4企业API
编程、多模态、视频模型在路上


xAI的企业部门仅成立两个月,但它正在通过其API发布Grok 4,已有各行业企业通过云平台使用了Grok 4。
聚焦现实的自动售货机商业场景,xAI的客户团队采用了大模型管理库存、联系供应商,大多数模型在去进行长线任务时都很困难。但使用了Grok 4 API之后,团队获得了令人印象深刻的结果。它设法运行模拟的时间翻了一倍,得分也翻了一倍,前后能保持较强一致性。
聚焦AI创作游戏方面,Grok 4可以在4个小时内制作的第一人称射击游戏。制作游戏并不一定是对游戏的核心逻辑进行编码,而是去寻找所有资源、文件素材,以创建一个具有视觉吸引力的游戏。对于开发人员来说,你可以专注于核心开发本身,让Grok 4去整理所有资产,自动化完成任务。
未来Grok 4将具有出色的视频理解和改进的工具使用能力,例如可以使用虚幻引擎生成艺术品模型,然后创建一个可在PC或手机上运行的可执行文件。xAI预计第一个真正优秀的AI视频游戏将在明年出现。
除此之外,马斯克透露,团队目前正在加大力度训练编码模型,在未来几周内将推出一个专业的编码模型。编码任务展现了Grok 4的弱点,即多模态能力。就像透过玻璃眯着眼睛看世界,看到所有模糊的特征,并试图感知它。xAI将在下一代模型中看到的最直接改进是,模型在理解图像和音频方面会能力逐步提高。
在视频模型方面,xAI将在接下来三到四周开始训练一个新的视频模型,具备出色视频生成和理解能力。

05.
结语:抢发Grok 4
马斯克对战GPT-5


Grok 4在高难度测试中展现的“超越博士水平”的推理能力,在理解和解决复杂问题方面迈出了关键一步。其通过工具加持实现的新能力,以及雄心勃勃的多模态与视频生成路线图,展现了xAI与即将发布的OpenAI GPT-5竞赛的决心。
在To B端落地,xAI正加速将Grok 4的能力从企业应用到零售、游戏创作等领域。同时,马斯克强调的“安全至上”与“寻求真理”的AI发展原则,以及对现实世界作为最终测试场的认知,为这场席卷全球的智能爆炸提供了不可或缺的思考维度。

(文:智东西)

发表评论