马斯克发布“地球最强AI模型”Grok 4:横扫所有榜单,在“人类最终测试”超越人类博士”!

作者 | 王启隆
出品 | CSDN(ID:CSDNnews)

北京时间 7 月 10 日,原定于上午 11 点的 xAI Grok 4 发布会,在万众瞩目中“鸽”了整整一小时。期间评论数飙升至 4200 条,转发超 2000 次,点赞破万,140 万观众在线催更。这期间,xAI 的官推评论区成了大型许愿池和段子集散地。

毕竟,发布会前,老板马斯克亲自下场,在办公室搭帐篷、通宵达旦进行“最后一次大规模训练”的消息早已传遍网络。人们迫切想知道,是怎样的“核武器”,值得如此阵仗。

事实证明,这场等待是值得的。马斯克和他的团队带来的 Grok 4,不仅是一次模型的常规升级,更像是一场对现有 AI 能力边界的悍然宣告。


王座易主?Grok 4 制霸大模型考场

发布会的核心,首先是一系列令人瞠目结舌的基准测试(Benchmark)成绩。如果说过去的 AI 评测是诸神之战,那么 Grok 4 的登场,则诸神黄昏

最引人注目的,无疑是“人类最终测试”(Humanity’s Last Exam, HLE)的成绩。 这是一个涵盖了数学、有机化学、语言学、法学等多个博士级别难题的超高难度测试,旨在检验AI最顶尖的推理和知识能力。

根据现场公布的数据和后续网友的挖掘,Grok 4 的表现堪称疯狂:

  • 基础能力:在不使用任何外部工具的情况下,Grok 4 的文本模型(Text-Only)取得了 26.9% 的成绩。

  • 工具加持:当允许使用工具(如代码解释器)时,成绩飙升至 41.0%

  • 此外还有“重思考”模式,在这个模式下,Grok 4 Heavy 的得分达到了恐怖的 58.3%

这是一个什么概念?此前,无论是Claude 4 Opus、Gemini 2.5 Pro还是OpenAIo3,在HLE上的得分普遍在15%-25%的区间徘徊。Grok 4几乎将SOTA(State-of-the-Art,即当前最佳水平)的纪录翻了一倍多。

马斯克在发布会上的那句Grok 4 在每一个学科上都优于博士水平,没有任何例外,不再仅仅是豪言壮语,而是有了数据的支撑。他进一步解释:“Grok 4比几乎所有学科的所有研究生都要聪明,而且是同时!它在所有领域都达到了博士后水平,是所有领域,没有例外。这值得我们反复回味。”

除了 HLE,Grok 4 在其他各大顶级基准测试中也实现了全面引领:

  • ARC-AGI-2(抽象推理挑战赛) 在这个被认为是衡量通用人工智能潜力的关键测试中,Grok 4 (Thinking)以 15.9% 的得分创下新的 SOTA,几乎是之前商业模型最高纪录的两倍。

  • AIME 25(美国数学邀请赛):Grok 4 Heavy 史无前例地取得了 100% 的满分,完美解出了所有高难度数学题。

  • GPQA(研究生水平问答):得分高达 88.9%,超越所有对手。

  • Artificial Analysis 智能指数:在这个综合了MMLU-Pro、GPQA Diamond、HLE 等七项顶级评测的综合指数中,Grok 4 以 73 分高居榜首,超越了包括 o3-pro、Gemini 2.5 Pro 在内的所有模型。

这一系列的成绩,标志着在 AI 的“智商”竞赛中,Grok 4 已经暂时坐上了王座。


Grok 何以封神?探秘智能背后的三大支柱

如此恐怖的性能跃升,绝非偶然。发布会深入揭示了 Grok 4 成功的秘密,可以归结为三大支柱:全新的协作模式、最大化追求真相的哲学,以及毫不妥协的算力投入。

1. 多智能体协作:Grok 4 Heavy 秘密武器

Grok 4 Heavy 之所以能在HLE等超高难度测试中取得突破,其核心秘密在于一种全新的内部协作机制。它并非简单的参数堆砌,而是一个“智能体构成的研讨小组”(Multi-AgentStudyGroup

当遇到一个复杂问题时,Grok 4 Heavy 会在内部“分身”出多个独立的智能体。每个智能体都会从不同角度、用不同方法独立思考和解决问题。这个过程完成后,它们会进入一个“比较笔记”的环节。

这个环节远比“少数服从多数”的投票机制高级。很多时候,可能只有一个智能体找到了解题的关键“窍门”或独特的思路。通过分享,所有智能体都能理解这个最佳方案,并在此基础上进行整合、优化,最终形成一个最深刻、最准确的答案。这正是“测试时计算”(Test-time-compute)的精髓,它通过增加思考的深度和广度,换来了精度的巨大提升。

2. 第一性原理:最大化追求真相

马斯克再次重申了 xAI 的核心哲学:“最大化地寻求真相(Maximally Truth-Seeking)”。他将 AI 比作一个超级天才的孩子,你最终无法在智力上超越它,但你可以在它成长的早期,为它“植入”正确的价值观。

“我们想要灌输给它的,是好奇心、是对真理的追求,是成为一个有益于人类的存在。”

马斯在发布会上说,“物理学是宇宙的法则,其他的一切都只是建议。你无法欺骗物理学。所以,最终的考验是现实。”

这种哲学,让 Grok 在面对争议性或复杂伦理问题时,不会像其他模型那样选择回避或给出“政治正确”的模板化答案,而是尝试从第一性原理出发,进行深入的、不带偏见的推理。

3. 二十万张 H10超算集群:史无前例的算力投入

这一切的背后,是马斯克毫不吝啬的“钞能力”支持。

发布会披露,Grok 4 的训练是在一个拥有超过 20 万张 H100 GPU 的超级计算机集群上完成的,是 Grok 3 时期的两倍。更重要的是,xAI 改变了训练策略,将更多的算力投入到“推理能力”的专项训练上。相比于 Grok 2,Grok 4 的训练量提升了整整 100 

这种不计成本的投入,为 Grok 4 构建了无与伦比的“智能底座”,让它有能力去探索更深层次的逻辑和知识。


不止于聊天:Grok 4 的现实世界“超能力”

抛开冰冷的跑分,Grok 4 在现场演示和 API 初体验中展现出的能力,更直观地定义了下一代 AI 的应用场景。

发布会后,马斯克在 最新置顶的这条推文,直接叫板 Cursor宣告了 Grok 4 在代码能力上的自信。在发布会的演示中,Grok 4 更是展示了其“创世”级别的能力:

  • 黑洞碰撞模拟:面对“生成两个黑洞碰撞的动画”这种融合了物理学、数学和编程的复杂要求,Grok 4 不仅理解了背后的“后牛顿近似法”等物理学原理,还迅速编写出 Python 代码,调用相关库,生成了相当逼真的可视化动图。它甚至在代码注释中坦诚地解释,为了视觉效果,在引力波的尺度上做了哪些“艺术夸张”,展现了惊人的元认知和自我解释能力。

  • 小时开发一款游戏:一位名叫 Danny 的开发者受邀体验 Grok 4 API。他仅用了 4 个小时,就借助 Grok 4 从零开始制作出了一款完整的第一人称射击游戏。Grok 4 不仅编写了游戏的核心逻辑代码,更令人惊叹的是,它还自动完成了寻找、适配纹理贴图、处理 3D 模型等极其繁琐的“美术资源”工作。这极大地解放了开发者的创造力,让一个人成为一个游戏工作室的梦想,变得触手可及。

  • 商业模拟超越人类:在一个名为“Vending Bench”的商业模拟平台中,AI 需要扮演自动售货机公司的经营者,管理库存、定价、与供应商签约。Grok 4 不仅成功运营,其最终创造的“净资产”价值更是达到了排行榜第二名模型的两倍,展现出惊人的长期战略规划和执行能力。

  • 加速科学发现:顶尖的生物医学研究机构 Arc Institute,已经开始使用 Grok 4 API 来自动化分析其海量的实验日志。面对数百万份复杂的实验数据,Grok 4 能帮助科学家快速筛选出最有价值的研究假设,将原本耗时数周的工作缩短到几分钟。

  • 预测未来:现场演示中,团队让 Grok 4 Heavy 分析体育博彩市场 Polymarket,并预测本年度美国职业棒球大联盟世界大赛的冠军。在长达 4 分半钟的深度“思考”后,Grok 4 浏览了大量赔率网站,分析了各队实力,甚至计算了自己的“Alpha 优势”,最终给出了洛杉矶道奇队以 21.6% 的概率获胜的结论,并详细阐述了整个推理过程。这种能力,让 Grok 4 不再仅仅是一个信息检索工具,而是一个具备主动分析和决策能力的“战略顾问”。

发布会还展示了全新的语音交互模式。新的声音模型,如充满磁性的“Sal”(发布会开场“电影预告片”的配音)和温柔知性的“Eve”,在自然度、韵律和情感表达上都达到了新的高度。

在与 Eve 的互动中,它能根据指令,用低语来安抚紧张的主持人,也能即兴高歌一曲关于“健怡可乐”的咏叹调,甚至在被要求“直接唱”时,无缝切换到另一种歌唱风格。这种对人类情感和语境的细腻捕捉,预示着未来的人机交互将变得无比自然和温暖。


价格、速度与未来:Grok 4 的阳谋与坦诚

Grok 4 的强大并非遥不可及。会后xAI 正式公布了全新的“SuperGrok”订阅计划和 API 定价,展现了其商业化的雄心和对市场的清晰判断。

定价策略:

  • 免费版(Basic): 体验Grok 3。

  • SuperGrok($300美元/年): 可使用 Grok 4 标准版,拥有 128k 上下文窗口和带视觉的语音模式。

  • SuperGrok Heavy($3000美元/年): 独家体验 Grok 4 Heavy,并能抢先体验各项新功能。

Grok 4 的 API 输出速度为 75 tokens/s,虽然慢于 o3(188 tokens/s),但快于同样以深度思考著称的 Claude 4 Opus Thinking(66 tokens/s)。

此外在发布会的最后,马斯克和团队也坦诚了 Grok 4 目前的“短板”——多模态能力,尤其是图像理解。他们形容现在的 Grok 4 看世界就像“隔着一块毛玻璃”,有些“局部失明”。

但这正是 xAI 的可怕之处,他们总是在承认弱点的同时,给出解决问题的时间表:

1. 视觉革命在即:将彻底解决这一问题的 Foundation Model V7 版本已在训练中,预计几周内完成。届时,Grok 将拥有与人类无异的视觉和听觉,能看懂视频,理解世界。

2. 马斯克的预言:

  • 今年: 有望看到第一部由AI生成的、可观看的半小时电视节目

  • 明年: 期待第一款真正好玩的 AI 视频游戏和第一部完整的 AI 电影。

3. 最终考场:马斯克强调,通过所有人类考试只是第一步。Grok 的终极目标是成为一个科学发现和技术发明的引擎。

“Grok 可能会在今年年底发现新的可用技术,明年发现新的物理学。”

这不再是科幻。当一个 AI 开始以现实世界为考场,以推动人类知识边界为己任时,我们知道,一个全新的时代,真的来了。

而这场由 Grok 4 搅动的风暴,才刚刚开始。



2025 全球产品经理大会

8月15–16日·北京威斯汀酒店

互联网大厂&AI 创业公司产品人齐聚

12 大专题,趋势洞察 × 实战拆解

扫码领取大会 PPT,抢占 AI 产品新红利

(文:AI科技大本营)

发表评论