『首发重磅』AI模型新霸主:Grok 3震撼登场!性能、推理双双登顶!

马斯克发动“钞能力”砸出来的 Grok 3,它终于来了!

早在 Grok 3 真正发布前,江湖上就流传着许多关于它的“传说”。

比如它是一个“算力怪兽”:Grok 3 在孟菲斯超级集群上完成训练,使用了由10万块英伟达 H100 GPU 组成的 Colossus 超级计算机,总训练时长达到2亿 GPU 小时,计算量较前代模型 Grok 2 提升10倍。

比如它是一个“性能王者”:在“一个黄色小球在一个正方形区域内反弹”这个经典测试问题上,Grok 3 的表现一骑绝尘,超越了 DeepSeek-R1o1-pro。详情看这里:DeepSeek-R1 vs o1-pro,Grok 3竟成幕后赢家?!

但是骡子是马,总得拉出来遛遛才知道。


深入理解宇宙的真实本质,这是马斯克给xAI这个AI公司一开始就定下的使命。

xAI在AI领域不是最有名气的,甚至无法跻身进入国外AI的“御三家”(OpenAI,Anthropic,谷歌),但要知道,xAI是一家仅成立于2023年7月12日的初创公司,到目前也只是经历了1年半的发展。

发布会上的PPT几乎每一页都是剑指“OpenAI”,毕竟那是马斯克的“宿敌”。xAI不出意外地强调:“高智商需要高算力的支持”。

接下来就是“军火展示”时刻。原来之前关于 Grok 3 的传闻都是真实的!位于孟菲斯的由10万块英伟达 H100 GPU 组成的 Colossus 超级计算机,目前已经到20万块了。

预热结束,好戏上场。首先是通用版本(不会思考)的 Grok 3

Grok 3的通用版本分为 Grok 3Grok 3 mini 两个模型。从基准测试结果来看,Grok 3已大幅超越所有其他通用模型,如:GPT-4oClaude 3.5 SonnetGemiin 2.0 Pro 以及 DeepSeek-V3

按惯例,新模型在发布前都是先放到LMSYS大模型竞技场遛一圈。Grok 3 以1400分的高分遥遥领先。

除了不会思考的通用模型,Grok 3 还有“Reasoning”推理模式。

Grok 3 推理模式有独立开关,这个设计和DeepSeek的“深度思考”一致。

推理模式也分为2种:Grok 3 mini 下的浅思考和 Grok 3 下的深思考,xAI官方称其为“Big Brain”。

Grok 3 两个模型推理模式下的基准测试结果如下。和当前最强的一系列推理模型对比,Grok 3 依旧是遥遥领先,超越了 o3-mini-higho1DeepSeek-R1。这里,谷歌的 Gemini 2.0 Flash Thinking 的表现是最差的,这也很好理解,底层模型仅是“Flash”系列的小模型。

这是 Grok 3 在最新的2025年美国数学邀请赛(AIME)的表现。柱状图顶部浅色拼接部分意思是给模型足够长的时间和算力,模型的最好成绩。

这是 Grok 3 mini 推理模型写出的“模拟火星运行轨道”的Python代码。一次成型,逼真且形象。和文章最开头的那个小球测试有异曲同工之妙。

除了2个 Grok 3 模型,xAI这次还一起发布了一个 AI Agent(智能体),毕竟 AI Agent 是2025年的大热门。

xAI的这个 AI Agent 名为 Deep Search。从这个名字,你应该能猜得出它是干什么的吧。

和OpenAI、Perplexity的“Deep Research”一样,xAI的 Deep Search 也是一个深度研究工具。

而从直播演示的效果来看,个人感觉 Deep Search 的效果是要好于Perplexity的“Deep Research”的。

它甚至能输出最原始的详细的思考过程,和 DeepSeek-R1 一样,在这里给xAI点一个大大的赞。

最后,是大家最关心的“怎么用”的问题。目前 Grok 3 仅对X平台的Premium+订阅用户优先开放。

Premium+订阅可不便宜,单月价格为每月40美元。建议不是对模型“智商”有特别追求的可以再观望一阵。毕竟,现在的 DeepSeek-R1 足以胜任99%的日常任务。

并且,未来会推出 SuperGrok 订阅,类似于 ChatGPT Pro,价格未公布。

Grok 3 的API服务和语音功能“Grok Voice”将会在未来几周内发布。


我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。


(文:AI信息Gap)

欢迎分享

发表评论