马斯克发动“钞能力”砸出来的 Grok 3
,它终于来了!
早在 Grok 3
真正发布前,江湖上就流传着许多关于它的“传说”。
比如它是一个“算力怪兽”:Grok 3
在孟菲斯超级集群上完成训练,使用了由10万块英伟达 H100 GPU 组成的 Colossus 超级计算机,总训练时长达到2亿 GPU 小时,计算量较前代模型 Grok 2
提升10倍。
比如它是一个“性能王者”:在“一个黄色小球在一个正方形区域内反弹”这个经典测试问题上,Grok 3
的表现一骑绝尘,超越了 DeepSeek-R1
和 o1-pro
。详情看这里:DeepSeek-R1 vs o1-pro,Grok 3竟成幕后赢家?!
但是骡子是马,总得拉出来遛遛才知道。
深入理解宇宙的真实本质,这是马斯克给xAI这个AI公司一开始就定下的使命。

xAI在AI领域不是最有名气的,甚至无法跻身进入国外AI的“御三家”(OpenAI,Anthropic,谷歌),但要知道,xAI是一家仅成立于2023年7月12日的初创公司,到目前也只是经历了1年半的发展。

发布会上的PPT几乎每一页都是剑指“OpenAI”,毕竟那是马斯克的“宿敌”。xAI不出意外地强调:“高智商需要高算力的支持”。

接下来就是“军火展示”时刻。原来之前关于 Grok 3
的传闻都是真实的!位于孟菲斯的由10万块英伟达 H100 GPU 组成的 Colossus 超级计算机,目前已经到20万块了。

预热结束,好戏上场。首先是通用版本(不会思考)的 Grok 3
。

Grok 3
的通用版本分为 Grok 3
和 Grok 3 mini
两个模型。从基准测试结果来看,Grok 3
已大幅超越所有其他通用模型,如:GPT-4o
,Claude 3.5 Sonnet
,Gemiin 2.0 Pro
以及 DeepSeek-V3
。

按惯例,新模型在发布前都是先放到LMSYS大模型竞技场遛一圈。Grok 3
以1400分的高分遥遥领先。

除了不会思考的通用模型,Grok 3
还有“Reasoning”推理模式。

Grok 3
推理模式有独立开关,这个设计和DeepSeek的“深度思考”一致。

推理模式也分为2种:Grok 3 mini
下的浅思考和 Grok 3
下的深思考,xAI官方称其为“Big Brain”。

Grok 3
两个模型推理模式下的基准测试结果如下。和当前最强的一系列推理模型对比,Grok 3
依旧是遥遥领先,超越了 o3-mini-high
,o1
和 DeepSeek-R1
。这里,谷歌的 Gemini 2.0 Flash Thinking
的表现是最差的,这也很好理解,底层模型仅是“Flash”系列的小模型。

这是 Grok 3
在最新的2025年美国数学邀请赛(AIME)的表现。柱状图顶部浅色拼接部分意思是给模型足够长的时间和算力,模型的最好成绩。

这是 Grok 3 mini
推理模型写出的“模拟火星运行轨道”的Python代码。一次成型,逼真且形象。和文章最开头的那个小球测试有异曲同工之妙。

除了2个 Grok 3
模型,xAI这次还一起发布了一个 AI Agent(智能体),毕竟 AI Agent 是2025年的大热门。

xAI的这个 AI Agent 名为 Deep Search
。从这个名字,你应该能猜得出它是干什么的吧。

和OpenAI、Perplexity的“Deep Research”一样,xAI的 Deep Search
也是一个深度研究工具。
而从直播演示的效果来看,个人感觉 Deep Search
的效果是要好于Perplexity的“Deep Research”的。

它甚至能输出最原始的详细的思考过程,和 DeepSeek-R1
一样,在这里给xAI点一个大大的赞。

最后,是大家最关心的“怎么用”的问题。目前 Grok 3
仅对X平台的Premium+订阅用户优先开放。

Premium+订阅可不便宜,单月价格为每月40美元。建议不是对模型“智商”有特别追求的可以再观望一阵。毕竟,现在的 DeepSeek-R1
足以胜任99%的日常任务。

并且,未来会推出 SuperGrok 订阅,类似于 ChatGPT Pro,价格未公布。

Grok 3
的API服务和语音功能“Grok Voice”将会在未来几周内发布。
我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。
相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用AI为你的未来加速。
(文:AI信息Gap)