马斯克发布“地球最强AI模型”Grok 4：横扫所有榜单，在“人类最终测试”超越人类博士”！

作者 | 王启隆

出品 | CSDN（ID：CSDNnews）

北京时间 7 月 10 日，原定于上午 11 点的 xAI Grok 4 发布会，在万众瞩目中“鸽”了整整一小时。期间评论数飙升至 4200 条，转发超 2000 次，点赞破万，140 万观众在线催更。这期间，xAI 的官推评论区成了大型许愿池和段子集散地。

毕竟，发布会前，老板马斯克亲自下场，在办公室搭帐篷、通宵达旦进行“最后一次大规模训练”的消息早已传遍网络。人们迫切想知道，是怎样的“核武器”，值得如此阵仗。

事实证明，这场等待是值得的。马斯克和他的团队带来的 Grok 4，不仅是一次模型的常规升级，更像是一场对现有 AI 能力边界的悍然宣告。

王座易主？Grok 4 制霸大模型考场

发布会的核心，首先是一系列令人瞠目结舌的基准测试（Benchmark）成绩。如果说过去的 AI 评测是诸神之战，那么 Grok 4 的登场，则是诸神黄昏。

最引人注目的，无疑是“人类最终测试”（Humanity’s Last Exam, HLE）的成绩。这是一个涵盖了数学、有机化学、语言学、法学等多个博士级别难题的超高难度测试，旨在检验AI最顶尖的推理和知识能力。

根据现场公布的数据和后续网友的挖掘，Grok 4 的表现堪称疯狂：

基础能力：在不使用任何外部工具的情况下，Grok 4 的文本模型（Text-Only）取得了 26.9% 的成绩。
工具加持：当允许使用工具（如代码解释器）时，成绩飙升至 41.0%。

此外还有“重思考”模式，在这个模式下，Grok 4 Heavy 的得分达到了恐怖的 58.3%！

这是一个什么概念？此前，无论是Claude 4 Opus、Gemini 2.5 Pro还是OpenAI的o3，在HLE上的得分普遍在15%-25%的区间徘徊。Grok 4几乎将SOTA（State-of-the-Art，即当前最佳水平）的纪录翻了一倍多。

马斯克在发布会上的那句“Grok 4 在每一个学科上都优于博士水平，没有任何例外”，不再仅仅是豪言壮语，而是有了数据的支撑。他进一步解释：“Grok 4比几乎所有学科的所有研究生都要聪明，而且是同时！它在所有领域都达到了博士后水平，是所有领域，没有例外。这值得我们反复回味。”

除了 HLE，Grok 4 在其他各大顶级基准测试中也实现了全面引领：

ARC-AGI-2（抽象推理挑战赛）：在这个被认为是衡量通用人工智能潜力的关键测试中，Grok 4 (Thinking)以 15.9% 的得分创下新的 SOTA，几乎是之前商业模型最高纪录的两倍。

AIME 25（美国数学邀请赛）：Grok 4 Heavy 史无前例地取得了 100% 的满分，完美解出了所有高难度数学题。
GPQA（研究生水平问答）：得分高达 88.9%，超越所有对手。

Artificial Analysis 智能指数：在这个综合了MMLU-Pro、GPQA Diamond、HLE 等七项顶级评测的综合指数中，Grok 4 以 73 分高居榜首，超越了包括 o3-pro、Gemini 2.5 Pro 在内的所有模型。

这一系列的成绩，标志着在 AI 的“智商”竞赛中，Grok 4 已经暂时坐上了王座。

Grok 何以封神？探秘智能背后的三大支柱

如此恐怖的性能跃升，绝非偶然。发布会深入揭示了 Grok 4 成功的秘密，可以归结为三大支柱：全新的协作模式、最大化追求真相的哲学，以及毫不妥协的算力投入。

1. 多智能体协作：Grok 4 Heavy 的“秘密武器”

Grok 4 Heavy 之所以能在HLE等超高难度测试中取得突破，其核心秘密在于一种全新的内部协作机制。它并非简单的参数堆砌，而是一个“多智能体构成的研讨小组”（Multi-AgentStudyGroup）。

当遇到一个复杂问题时，Grok 4 Heavy 会在内部“分身”出多个独立的智能体。每个智能体都会从不同角度、用不同方法独立思考和解决问题。这个过程完成后，它们会进入一个“比较笔记”的环节。

这个环节远比“少数服从多数”的投票机制高级。很多时候，可能只有一个智能体找到了解题的关键“窍门”或独特的思路。通过分享，所有智能体都能理解这个最佳方案，并在此基础上进行整合、优化，最终形成一个最深刻、最准确的答案。这正是“测试时计算”（Test-time-compute）的精髓，它通过增加思考的深度和广度，换来了精度的巨大提升。

2. 第一性原理：最大化追求真相

马斯克再次重申了 xAI 的核心哲学：“最大化地寻求真相（Maximally Truth-Seeking）”。他将 AI 比作一个超级天才的孩子，你最终无法在智力上超越它，但你可以在它成长的早期，为它“植入”正确的价值观。

“我们想要灌输给它的，是好奇心、是对真理的追求，是成为一个有益于人类的存在。”

马斯克在发布会上说，“物理学是宇宙的法则，其他的一切都只是建议。你无法欺骗物理学。所以，最终的考验是现实。”

这种哲学，让 Grok 在面对争议性或复杂伦理问题时，不会像其他模型那样选择回避或给出“政治正确”的模板化答案，而是尝试从第一性原理出发，进行深入的、不带偏见的推理。

3. 二十万张 H100 超算集群：史无前例的算力投入

这一切的背后，是马斯克毫不吝啬的“钞能力”支持。

发布会披露，Grok 4 的训练是在一个拥有超过 20 万张 H100 GPU 的超级计算机集群上完成的，是 Grok 3 时期的两倍。更重要的是，xAI 改变了训练策略，将更多的算力投入到“推理能力”的专项训练上。相比于 Grok 2，Grok 4 的训练量提升了整整 100 倍。

这种不计成本的投入，为 Grok 4 构建了无与伦比的“智能底座”，让它有能力去探索更深层次的逻辑和知识。

不止于聊天：Grok 4 的现实世界“超能力”

抛开冰冷的跑分，Grok 4 在现场演示和 API 初体验中展现出的能力，更直观地定义了下一代 AI 的应用场景。

发布会后，马斯克在 X 上最新置顶的这条推文，直接叫板 Cursor，宣告了 Grok 4 在代码能力上的自信。在发布会的演示中，Grok 4 更是展示了其“创世”级别的能力：

黑洞碰撞模拟：面对“生成两个黑洞碰撞的动画”这种融合了物理学、数学和编程的复杂要求，Grok 4 不仅理解了背后的“后牛顿近似法”等物理学原理，还迅速编写出 Python 代码，调用相关库，生成了相当逼真的可视化动图。它甚至在代码注释中坦诚地解释，为了视觉效果，在引力波的尺度上做了哪些“艺术夸张”，展现了惊人的元认知和自我解释能力。

4 小时开发一款游戏：一位名叫 Danny 的开发者受邀体验 Grok 4 API。他仅用了 4 个小时，就借助 Grok 4 从零开始制作出了一款完整的第一人称射击游戏。Grok 4 不仅编写了游戏的核心逻辑代码，更令人惊叹的是，它还自动完成了寻找、适配纹理贴图、处理 3D 模型等极其繁琐的“美术资源”工作。这极大地解放了开发者的创造力，让一个人成为一个游戏工作室的梦想，变得触手可及。

商业模拟超越人类：在一个名为“Vending Bench”的商业模拟平台中，AI 需要扮演自动售货机公司的经营者，管理库存、定价、与供应商签约。Grok 4 不仅成功运营，其最终创造的“净资产”价值更是达到了排行榜第二名模型的两倍，展现出惊人的长期战略规划和执行能力。

加速科学发现：顶尖的生物医学研究机构 Arc Institute，已经开始使用 Grok 4 API 来自动化分析其海量的实验日志。面对数百万份复杂的实验数据，Grok 4 能帮助科学家快速筛选出最有价值的研究假设，将原本耗时数周的工作缩短到几分钟。
预测未来：现场演示中，团队让 Grok 4 Heavy 分析体育博彩市场 Polymarket，并预测本年度美国职业棒球大联盟世界大赛的冠军。在长达 4 分半钟的深度“思考”后，Grok 4 浏览了大量赔率网站，分析了各队实力，甚至计算了自己的“Alpha 优势”，最终给出了洛杉矶道奇队以 21.6% 的概率获胜的结论，并详细阐述了整个推理过程。这种能力，让 Grok 4 不再仅仅是一个信息检索工具，而是一个具备主动分析和决策能力的“战略顾问”。

发布会还展示了全新的语音交互模式。新的声音模型，如充满磁性的“Sal”（发布会开场“电影预告片”的配音）和温柔知性的“Eve”，在自然度、韵律和情感表达上都达到了新的高度。

在与 Eve 的互动中，它能根据指令，用低语来安抚紧张的主持人，也能即兴高歌一曲关于“健怡可乐”的咏叹调，甚至在被要求“直接唱”时，无缝切换到另一种歌唱风格。这种对人类情感和语境的细腻捕捉，预示着未来的人机交互将变得无比自然和温暖。

价格、速度与未来：Grok 4 的阳谋与坦诚

Grok 4 的强大并非遥不可及。会后，xAI 正式公布了全新的“SuperGrok”订阅计划和 API 定价，展现了其商业化的雄心和对市场的清晰判断。

定价策略：

免费版（Basic）：体验Grok 3。
SuperGrok（$300美元/年）：可使用 Grok 4 标准版，拥有 128k 上下文窗口和带视觉的语音模式。
SuperGrok Heavy（$3000美元/年）：独家体验 Grok 4 Heavy，并能抢先体验各项新功能。

Grok 4 的 API 输出速度为 75 tokens/s，虽然慢于 o3（188 tokens/s），但快于同样以深度思考著称的 Claude 4 Opus Thinking（66 tokens/s）。

此外，在发布会的最后，马斯克和团队也坦诚了 Grok 4 目前的“短板”——多模态能力，尤其是图像理解。他们形容现在的 Grok 4 看世界就像“隔着一块毛玻璃”，有些“局部失明”。

但这正是 xAI 的可怕之处，他们总是在承认弱点的同时，给出解决问题的时间表：

1. 视觉革命在即：将彻底解决这一问题的 Foundation Model V7 版本已在训练中，预计几周内完成。届时，Grok 将拥有与人类无异的视觉和听觉，能看懂视频，理解世界。

2. 马斯克的预言：

今年：有望看到第一部由AI生成的、可观看的半小时电视节目。
明年：期待第一款真正好玩的 AI 视频游戏和第一部完整的 AI 电影。

3. 最终考场：马斯克强调，通过所有人类考试只是第一步。Grok 的终极目标是成为一个科学发现和技术发明的引擎。

“Grok 可能会在今年年底发现新的可用技术，明年发现新的物理学。”

这不再是科幻。当一个 AI 开始以现实世界为考场，以推动人类知识边界为己任时，我们知道，一个全新的时代，真的来了。

而这场由 Grok 4 搅动的风暴，才刚刚开始。

2025 全球产品经理大会

8月15–16日·北京威斯汀酒店

互联网大厂&AI 创业公司产品人齐聚

12 大专题，趋势洞察 × 实战拆解

扫码领取大会 PPT，抢占 AI 产品新红利

（文：AI科技大本营）

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

不止于聊天：Grok 4 的现实世界“超能力”

发表评论 取消回复

发表评论取消回复