『首发重磅』AI模型新霸主：Grok 3震撼登场！性能、推理双双登顶！

马斯克发动“钞能力”砸出来的 Grok 3，它终于来了！

早在 Grok 3 真正发布前，江湖上就流传着许多关于它的“传说”。

比如它是一个“算力怪兽”：Grok 3 在孟菲斯超级集群上完成训练，使用了由10万块英伟达 H100 GPU 组成的 Colossus 超级计算机，总训练时长达到2亿 GPU 小时，计算量较前代模型 Grok 2 提升10倍。

比如它是一个“性能王者”：在“一个黄色小球在一个正方形区域内反弹”这个经典测试问题上，Grok 3 的表现一骑绝尘，超越了 DeepSeek-R1 和 o1-pro。详情看这里：DeepSeek-R1 vs o1-pro，Grok 3竟成幕后赢家？！

但是骡子是马，总得拉出来遛遛才知道。

深入理解宇宙的真实本质，这是马斯克给xAI这个AI公司一开始就定下的使命。

xAI在AI领域不是最有名气的，甚至无法跻身进入国外AI的“御三家”（OpenAI，Anthropic，谷歌），但要知道，xAI是一家仅成立于2023年7月12日的初创公司，到目前也只是经历了1年半的发展。

发布会上的PPT几乎每一页都是剑指“OpenAI”，毕竟那是马斯克的“宿敌”。xAI不出意外地强调：“高智商需要高算力的支持”。

接下来就是“军火展示”时刻。原来之前关于 Grok 3 的传闻都是真实的！位于孟菲斯的由10万块英伟达 H100 GPU 组成的 Colossus 超级计算机，目前已经到20万块了。

预热结束，好戏上场。首先是通用版本（不会思考）的 Grok 3。

Grok 3的通用版本分为 Grok 3 和 Grok 3 mini 两个模型。从基准测试结果来看，Grok 3已大幅超越所有其他通用模型，如：GPT-4o，Claude 3.5 Sonnet，Gemiin 2.0 Pro 以及 DeepSeek-V3。

按惯例，新模型在发布前都是先放到LMSYS大模型竞技场遛一圈。Grok 3 以1400分的高分遥遥领先。

除了不会思考的通用模型，Grok 3 还有“Reasoning”推理模式。

Grok 3 推理模式有独立开关，这个设计和DeepSeek的“深度思考”一致。

推理模式也分为2种：Grok 3 mini 下的浅思考和 Grok 3 下的深思考，xAI官方称其为“Big Brain”。

Grok 3 两个模型推理模式下的基准测试结果如下。和当前最强的一系列推理模型对比，Grok 3 依旧是遥遥领先，超越了 o3-mini-high，o1 和 DeepSeek-R1。这里，谷歌的 Gemini 2.0 Flash Thinking 的表现是最差的，这也很好理解，底层模型仅是“Flash”系列的小模型。