
邮箱|damoxingjidongzu@pingwest.com
7月10日,马斯克旗下的xAI公司发布了全新AGI模型——“Grok 4”和多智能体版本 “Grok 4 Heavy”,这一新版本不仅提升了推理速度,还在多任务处理、逻辑推理与文本生成等方面展现出超常能力。
此次发布标志着X AI在计算能力和模型架构上的重大突破。借助Colossus超级计算机和数十万NVIDIA H100 GPU,Grok 4在推理速度、响应能力和多模态功能上实现了飞跃,刷新了多个学术基准测试的记录。马斯克在现场表示,这一进展将开启AI历史上最具革命性的“智能大爆炸时代”。
发布会全文内容如下:
欢迎来到Grok 4 的发布现场,这是世界上最先进的AI,我们将为你详细展示其中的原理与缘由。看到AI的飞速发展,真的令人惊叹,它的进化速度实在太快了。我常将它与人类的成长做比较,对比人类学习、获得意识和理解的速度,AI的进步速度远超人类。我们将带你了解一系列基准测试,Grok 4 能够在各类测试中取得惊人成绩。
值得一提的是,如果让Grok 4 参加 SAT 考试,每次都能拿到满分,即便它之前从未见过这些考题。再进一步说,像 GRE 这类研究生考试,它在各个学科领域都能取得近乎满分的成绩。从人文科学到语言、数学、物理、工程学,随便哪一门学科。而且我们说的是它从未见过的题目,这些题目也不在互联网上。
Grok 4 的智能水平几乎超越了所有学科的研究生,真正重要的是要认识到这确实非同寻常。Grok的推理能力简直令人难以置信,有些人认为AI无法推理,但实际上它能达到超人类的推理水平,坦率地说,它只会变得越来越好。接下来我们将详细介绍Grok 4 的进展速度。
第一部分是关于训练方面,从Grok 2 到Grok 3 再到Grok 4,每次训练量都提升了一个数量级。所以Grok 4 的训练量是Grok 2 的 100 倍,而且这种增长未来还会加剧。坦率地说,从某种程度上讲有点可怕,但它的智能增长着实惊人。
需要认识到训练算力分为两类。一种是预训练计算,从Grok 2 到Grok 3 是这种方式,但从Grok 3 到Grok 4,我们在推理方面投入了大量算力。
按照现在的标准来看,Grok 2 就像高中生水平,回顾过去 12 个月,12 个月前Grok 2 还只是个概念。我们第一次进行预训练扩展就是训练Grok 2 的时候,我们意识到如果认真做好数据消融、极为谨慎地处理数据、基础设施以及算法等方面的工作,预训练规模可以提升 10 倍,从而打造出最好的预训练基础模型。

正因如此,我们打造了Colossus超级计算系统,拥有十万块H100 的全球超级计算机,于是在拥有最佳预训练模型的基础上,我们意识到如果能收集可验证的结果奖励,就能训练这个模型,从第一性原理出发思考、进行推理并纠正自身错误,这就是Grok 3推理能力的来源。
如今我们提出一个问题,如果把拥有 20 万个 GPU 的Colossus超级计算系统全部投入强化学习,其计算量是其他模型在强化学习上的 10 倍,会发生什么?这就是Grok 4 的故事。
我们来谈谈Grok 4有多智能。这个基准测试名为“人文终极考试”,而这个基准测试非常有挑战性,每一道题都是由专业领域的专家精心编选,总共 2500 道题,涵盖多个学科,包括数学、自然科学、工程学以及人文科学。实际上,今年早些时候这个测试刚发布时,市面上大多数模型在这个测试中的准确率只能达到个位数。
我们来看几个例子,有一道关于范畴论中自然变换的数学题,还有一道关于电环化反应的有机化学题,以及一道要求从希伯来语原文中区分闭音节和开音节的语言学题。可以看到,题目涉及的范围非常广,每一道题都是博士甚至高级研究水平的题目。

实际上,没有人类能在这些题目上取得好成绩。如果问任何一个普通人,人类能取得的最好成绩是多少,乐观估计可能也就 5%,所以这个测试比人类能完成的任务困难得多。从这些题目类型可以看出,你可能在语言学、数学、化学、物理学或者其他任何一门学科上很厉害,但不可能在所有学科都达到研究生水平。
而Grok 4 在所有学科上都达到了研究生水平,比大多数博士都要强,很多博士都会在这些题目上失败,至少在学术问题上是这样,当然,这并不意味着它在任何时候都有常识,也不意味着它已经发明了新技术或发现了新的物理学理论,不过这只是时间问题。我认为它可能在今年晚些时候就会发明有用的新技术,也有可能在今年年底。
接着聊聊Grok 4 背后的技术细节。实际上我们在训练中投入了大量算力,一开始计算量只有个位数,但随着投入的训练算力越来越多,它开始逐渐变得越来越聪明,最终解决了四分之一的HLA问题,而且这还是在没有使用任何工具辅助的情况下。

接下来我们为模型添加了工具使用能力。我认为Grok 3 实际上也能使用CRO,但在本研究中,从某种意义上,我们实际让他变得更加原生自然,我们将工具融入训练过程。Grok 3 只是依赖泛化能力,而这里我们将工具直接用于训练,结果表明这显著提升了模型使用这些工具的能力。
所有DeepSearch其实就是Grok 3 的推理模型,但没有经过任何针对性训练。我们只是要求它使用那些工具。相比之下,它在工具使用能力方面要弱得多,而且不可靠。
需要说明的是,如果和特斯拉或SpaceX所使用的工具相比,目前这些工具的使用还相当初级。在特斯拉或SpaceX,他们会使用有限元分析和计算流体动力学,还能进行碰撞模拟测试,这些模拟与现实情况极其接近,以至于如果测试结果与模拟结果不符,人们会认为测试对象有问题,模拟的精确程度就是如此之高。目前Grok还没有使用公司会用到的那些真正强大的工具,但我们会在今年晚些时候为它提供这些工具,让它拥有公司级的工具和非常精确的物理模拟器。
最终,能带来最大改变的是让它通过人形机器人与现实世界进行交互。将Grok和Optimus结合起来,就能真正与现实世界互动,还能提出假设,并验证假设是否正确。
我们正处于一场巨大的智能爆炸的开端,现在就像是智能领域的大爆炸时刻,这是人类历史上最有趣的时代,我们必须要确保这个AI是个好的AI,一个优秀的Grok。我认为对于AI安全而言,最重要的是让它最大限度地追求真理。这是一个非常基本的原则,可以把AI看作一个超级天才儿童,它最终会比你更聪明,但你仍然可以给它植入正确的价值观,鼓励它追求真理。就像你希望给一个最终会变得极其强大的孩子灌输的那些价值观,比如正直诚实之类的。
我们现在所说的工具仍然很初级,不是成熟商业公司会用的那种工具。但我们会给它配备那些工具,我认为有了这些工具,它就能解决现实世界中的技术问题。
实现这些需要算力,还要有合适的工具,最终要能与物理世界进行交互,我们就能拥有一个真正的经济体,最终形成一个规模上千倍的经济体。若把文明发展程度看作是在卡尔达肖夫等级上的完成度,卡尔达肖夫一级是利用行星的全部能源输出,二级是利用恒星的全部能源输出,三级是利用整个星系的全部能源输出。在我看来,我们现在可能才达到卡尔达肖夫一级的1%左右,远不到10%,接下来会朝着80%、90%的卡尔达消夫一级迈进,前提是文明不会自我毁灭。
就像人类经济的真实概念,假设文明持续进步,回顾起来我们现在的状态会显得很原始。和未来的情况相比,我们现在的智能水平就像是原始人往火里扔树枝一样。这非常令人振奋,有时也为此担忧。创造出远超我们自身的智能,这多少有点让人不安。这对人类来说是福是祸,但就算结果不好,我至少也想活着见证它发生。
我们仍需解决的一个技术问题,除了算力之外,我们该如何突破数据瓶颈。因为当我们试图扩大强化学习的规模时,我们确实发明了很多新技术、新方法,让我们能够解决许多具有挑战性的强化学习问题。问题本身不仅要具有挑战性,还需要有可靠的信号来告知模型它做对了还是做错了,就是强化学习的原理。随着模型越来越智能,有趣或有挑战性的问题数量会越来越少。所以,除了计算能力,这将是我们需要克服的一种新型挑战。
实际上我们能用来测试的问题都快用完了,甚至出现了荒谬至极的难题,对人类来说几乎不可能解答的书面问题正在被轻易解决,但对AI来说很快就变得微不足道了。现实才是检验一切的绝佳标准,因为如果物理规律是法则,那么其他一切都只是建议,你无法违背物理规律,因此最终的推理测试就是现实。
比如你发明了一项新技术,改进了汽车或火箭的设计,或者研发出一种新药物,它管用吗,火箭能进入轨道吗,汽车能行驶吗,药物有疗效吗,不管情况如何,现实才是最终的评判者,围绕现实形成闭环。
我们提出了这个问题,该如何更进一步?实际上,我们现在在思考,单智能体系统能够解决40%的问题。如果我们同时运行多个智能体会怎样,这就是所谓的测试与计算。当我们扩大测试和计算的规模时,实际上我们能够解决超过50%的基于文本的HRE问题子集。

这极其困难,所谓的“人类最后考试”中大部分基于文本的问题,Grok 4 都能解答,Grok 4 重型版本的工作方式是并行生成多个智能体。所有这些智能体独立工作,然后比较它们的成果,就像一个学习小组一样做决策。这并不像简单的多数表决那么简单,因为通常只有一个智能体能够找到诀窍或解决方案。
但是一旦它发现了解决问题的诀窍或本质,就会与其他智能体分享这个解决方案,然后它们会互相交流,本质上就是互相核对笔记,最后得出一个答案。所以Grok 4的核心部分就是将测试时的计算能力提高大约一个数量级,让多个智能体处理任务,然后它们比较成果并提出它们认为最好的结果。
接下来我们将介绍Grok 4和Grok 4 重型版本,Grok 4基本上就是单智能体版本,Grok 4 重型版是多智能体版本。让我们看看它们在这些考试问题以及一些现实问题上的表现如何。
我们接下来要分析一个高阶逻辑推理(HLE)题目,这其实是一道相对简单的数学题。我不太懂这道题,但我可以在这里启动求解程序,看看它是如何处理并思考这个问题的。在这个过程中,我也想再多展示一些这个模型的能力,同时启动Grok 4 重型版本。
大家都知道Polymarket,它非常有趣,它是真理的探寻者,大多数时候与现实情况相符。对于Grok,我们实际追求的是能预见,我们如何尝试利用这些市场并观察,倘若我们也能预测未来,所以在程序运行的时候,我们将看看Grok 4 重型版本如何预测美国职业棒球大联盟当前各球队在世界大赛中的获胜概率。

我认为Grok 4 最酷的一点是它能够理解世界,并利用工具解决难题。我觉得有个很酷的例子,我们让它生成两个黑洞碰撞的可视化图像,当然这里存在一些自由发挥的空间,就我而言,其思维轨迹其实相当清晰,关于这些自由发挥的尺度问题,例如,为了让图像可见,它需要极大地夸大引力波的规模,这就是它实际呈现的效果。

这里存在某种惯性作用,它在多个方面放大了规模,在距离上的衰减也没那么明显,但我们可以看到基本的效果是正确的。螺旋合并由此开始,随后进入环形衰减阶段,大体基本上是正确的。虽然做了一些简化,但它对此表现得很清楚,它使用的是后牛顿近似法,而非真正计算黑洞中心附近的广义相对论效应,这是不准确的,会导致一些结果偏差,但整体的可视化效果基本已经呈现。

你还能看到它参考的各类资源,显然它使用了搜索功能,从很多链接中收集结果,还研读了关于解析引力波模型的本科教材,在分析性引力波模型中,它对实际模拟中应使用的常量进行了大量推理,参考了现有的现实世界数据。但实际上,我们可以采用物理学家使用的相同模型,这样它就能进行与顶尖物理学研究人员相同水平的计算,为你提供符合物理实际的黑洞模拟。
快速切回来,我们可以看到数学问题已经解答完了。这个模型查看他在此处的思考轨迹,你就能知道它是如何解决问题的。我其实不太懂那些数学内容,但我提前看过答案了,它最后得出的答案是正确的。

在最后这部分,还可以来看一下我们对世界大赛的预测。我们实际上可以试试我们做过的一些X集成功能。我们投入很大精力来整合所有的X工具,打造出了很棒的使用体验。我们可以问模型,找出X AI员工里个人资料照片最奇怪的那个,接着它开始执行。我们还可以试试,根据X平台的帖子创建一个时间线,详细展示分数随时间的变化情况,能看到当时发生的所有讨论,这样我们就能知道是谁在公布分数,以及当时人们的反应。
回看X平台照片的需求,搜索出了格雷格·杨,他账号上有他最喜欢的一张照片,其实和他本人长得不太一样,但还挺有意思的。但关键是它得理解这个问题,这才是神奇的地方,就好像它知道什么样的照片算奇怪,它得搜遍所有团队成员,搞清楚我们都是谁,然后进行搜索。实际上它没有访问XAI内部人员信息,只是在互联网上搜,所以你可以说找出任何一家公司里照片最奇怪的人。

在它完成搜索的过程中,我们可以看看刚才设置的一个问题,我们能看到它找到了丹·亨德里克斯最初公布消息的日期,继续查看,能看到OpenAI早在2月份就公布了他们的分数,随着Gemini模型的进展,我们能看到相关情况,比如金米的情况,甚至还能看到人们所说的泄露的基准测试数据,如果数据属实,那会相当惊人。我很期待看到大家如何使用这些工具,并从中获得最大价值。
实际上我们也对多模型子集进行了评估。在整个数据集上,这是HRE考试的得分情况。你可以看到分数有略有下降。这其实是我们持续改进的地方,即多模型理解能力。但我相信在很短的时间内,我们能够取得显著的改进,在这个基准测试中获得更高的分数,甚至远远高于当前水平。

目前Grok最大的弱点是它有一定局限性,它的图像理解能力以及图像生成能力都有待大幅提升,目前正在进行相关训练。Grok 4基于我们基础模型的第6版,我们正在训练第7版,这将解决其在视觉方面的弱点。
除了HRE考试,我们还可以看看其他的基准测试。结果表明,Grok4在人们通常测试的所有推理基准测试中都表现出色,包括通用基准问答(GBQA),这是一套博士水平的问题集,比HRE考试相对简单一些。

还有美国数学邀请赛(AIME),在一些编码基准测试上也是如此,还有哈佛 – 麻省理工学院数学竞赛(HMMT)和美国数学奥林匹克(USMO)等考试中,事实上,Grok 4 在所有这些基准测试中通常都有很大的优势。
我们很快就能达到这样的水平:它在每场考试中都能答对所有问题。如果遇到无法回答的问题,它会指出问题哪里有问题,或者如果问题含糊不清,它会将问题进行澄清,给出A、B、C等不同答案,并告诉你在澄清后的问题下,A、B、C答案分别是什么。到那时,唯一真正的检验标准将是现实应用。它能否创造出有用的技术,发现新的科学知识,这将是唯一剩下的检验,因为人类的考试将变得毫无意义。
鉴于目前的进展速度,我们很快就得更新HRE考试的内容了,看到多个智能体相互协作解决极具挑战性的问题,真的超级酷。
我们即将推出Grok 重型版本,你可以同时使用Grok4和Grok 4重型版,在这里你将真正成为任务的主导者,一群小型Grok研究助手助你全方位变得更智慧,还能为你节省数小时的时间,处理繁琐任务。
我们在演示期间限制了使用量,以防破坏演示效果,因为所有这些都是实时进行的。所以我们做的任何测试都不是预先录制好的,演示结束后,我们会为Grok 重型版本开发更多订阅名额。
现在咱们来聊聊语音功能,在过去几个月里,我们把延迟降低了一半,让它反应更灵敏。今天,我们很高兴地宣布推出一组新语音,它们极其自然且富有韵律。直播开场用的电影预告片语音,就是我们的新语音之一,罗克,他的声音低沉雄浑。我们也很高兴推出伊芙,一位声音动听的英式语音,能表达丰富情感。
罗克反应更快,但它会打断我,在韵律方面,我们做了不同的设计选择。我认为我们追求的是更沉稳、流畅、自然的效果,而不是那种更活泼或人工感强的效果。
自语音模型发布以来,我们实际上实现了端到端延迟快两倍的效果。在过去八周里,有了五种不同的语音,还有10倍的活跃用户,Grok语音正逐渐流行起来。
现在考虑到模型的发布,这次我们同时也通过API发布了Grok 4。我们看接下来的两张幻灯片,我们对开发者群体将用它开发出什么成果感到非常兴奋。假设我是一名开发者,如果能使用Grok 4 API基准测试,我首先会做什么呢?

于是我们在X平台上询问,对于所有AGI模型来说,最具挑战性、被视为圣杯的基准测试是什么,结果发现是过去12小时内的ArcAGI。我们提前试用了Grok 4 API,并独立验证了Grok 4的性能。这是我们新一代的推理模型,投入10倍以上的算力资源,它能使用所有工具。
但事实证明,当我们在ArcAGI v2的一个私有子集上进行验证时,发现它是过去三个月里唯一突破10%准确率门槛的模型,实际上准确率达到了15.8%,是排名第二的Claude 4 Opus模型的两倍。而且这不仅仅是性能问题,当你考量智能水平时,使用API模型驱动自动化还要考虑性价比,请看看这里的图表,Grok 4 可谓鹤立鸡群,关于基准测试就说到这里。

Grok在现实世界中还能做些什么呢,Andon Labs团队的人在实际业务中试用了Grok。Vending Bench是一项模拟商业运营的AI测试平台,在设想场景中,AI能运营的最简单业务是什么,最后想到了自动售货机。
在这个场景中,Grok等其他模型需要完成管理库存、与供应商签约、设定价格等任务,所有这些事情都很简单,每个模型也都能一项一项地完成,但如果把这些任务放在长期时间跨度进行处理时,大多数模型都难以胜任。
Andon Labs 提前获得了Grok 4的API的访问权限,在测试平台上运行了它,看到了一些非常令人印象深刻的结果,净资产甚至翻了一番,这是在这次测试中的衡量指标,因此关键不在于关于你得到的百分比或分数,而是你在网络中创造的美元价值。
Andon Labs 对Grok印象深刻,它能够制定策略并长期坚持该策略,比测试过的其他前沿模型的坚持时间要长得多。所以它能将模拟运行时间和得分都提高一倍,净资产提高一倍,而且在多次运行中它也非常稳定,若你想在现实世界中使用它时,这一点非常重要。

当我们在现实世界中赋予AI系统越来越多的权力时,在模拟现实世界或真实的场景中对它们进行测试是很重要的,否则我们就会盲目行事,我们可以看到Grok有望成为业务部门的副驾驶。
那么Grok还能做什么呢?我们实际上正在发布Grok,若你想立即试用并评估,运行和我们相同的基准进行评估,它已通过API开发,有256k的上下文长度。我们确实已经看到一些早期采用者在试用Grok API,帕洛阿尔托研究所,一家领先的生物医学研究中心,已经在使用它。

看看如何用Grok实现研究流程自动化,结果发现它能够帮助科学家在瞬间浏览数百万条实验记录,然后选出最佳假设。我们看到它被用于CRISPR基因编辑研究,还被独立评估为检查胸部X片的最佳模型。
而在金融领域,我们也看到拥有所有工具和实时信息访问权限的Grok 4实际上是最受欢迎的AI之一,我们的Grok也将在超大规模云计算平台上可用,XAI企业部门两个月前才刚刚启动,现在已经开放业务合作了。
我们还经常谈到用Grok来制作视频游戏,丹尼是X平台上的一名视频游戏设计师,他实际上在四个小时内就制作出了一款第一人称射击游戏,制作视频游戏中一些未被充分认识到的最难的问题不一定是编码游戏的核心逻辑,而是去获取所有的资源、所有纹理文件,并创建一个视觉上吸引人的游戏。
Grok利用现有的所有工具在工作流程的一个核心方面做得非常好,它能够自动完成资源获取的任务。所以开发者现在可以只专注于核心开发,而不是像以前那样,现在你可以凭借一个人运营一整个游戏工作室,让Grok 4去为你获取所有那些资源,自动完成这些任务。它必须有很好的视频理解能力,这样它才能玩游戏并与游戏互动,并且能够判断一个游戏是否有趣。

对于视频游戏,你会想使用虚幻引擎或Unity或其他主流图形引擎,然后生成艺术素材,应用到3D模型上,然后创建一个可执行文件,人们可以在电脑、游戏机或手机上运行,预计可能在今年实现。
总结一下,在今天的直播中,我们推出了最强大、最智能的AI模型,它能够从第一性原理出发进行推理,使用所有工具进行研究,经过一段时间的探索,现已可以为你给出最正确的答案。接下来我们将继续开发不仅智能、能够长时间深入思考、消耗大量算力的模型,更要开发既快速又智能的模型,这将是核心重点。有哪些应用能够真正从这些非常智能、快速又聪明的模型中受益,编码就是其中之一。
编码之后,我们都看到了Grok 4在多模态能力方面的不足。事实上,情况非常糟糕,Grok实际上就像是透过模糊的玻璃看世界,看到的都是模糊的特征,试图去理解它们。我们在下一代预训练模型中会看到的最直接的改进是,模型在图像理解、视频理解和音频方面的能力将有显著提升。
现在有了所有可用的工具,有了可以交流的其他智能体,多模态智能体之后将解锁许多不同的应用层,接下来将是视频生成。我们相信最终应该是输入像素,输出像素。想象一下,在X平台上会有源源不断的内容库,你通常可以观看这些生成的视频,还能参与创作,我们预计将训练一个超过10万GB,甚至20万GB的视频模型。
Grok 4的发布,不仅展示了AI在推理和多模态处理上的突破,更预示着AI向深度智能迈出的关键一步,能够在多个学科领域中独立推理、整合信息并做出决策。这不仅使得Grok 4成为一个高效的工具,更让它具备了接近“自主思考”的潜力。
xAI的下一步,是让Grok 4不止停留在解答问题的层面,而是在更复杂的任务中与人类协同作战,像真正的智能伙伴一样。在这个过程中,AI的角色正逐渐从工具变为思维的延伸,开启了一个人类与机器共创的新时代。我们或许正在见证一个“智能觉醒”的起点,未来将是机器与人类共同塑造的复杂生态。
(文:硅星GenAI)