
极市导读
大模型盲测榜单 LYSYS Arena 有史以来首先打破 1400 分,在所有类别中排名#1>>加入极市CV技术交流群,走在计算机视觉的最前沿
大家好,我是含萧。
就在刚刚,马斯克发布了 xAI 最新的模型:Grok-3 和 Grok-3 推理版!
现在 X 官网上开会员已经可以直接体验,网页和应用的所有功能会在一周内完善、API 会在几周内推出。
什么模型才让马斯克敢说是“地球上最聪明的 AI?

简单粗暴给大家汇总一下目前的信息:
-
Grok 3 表现超越 DeepSeek R1、GPT-o1、Gemini 2 Pro、GPT-4o、Claude 3.5 -
大模型盲测榜单 LYSYS Arena 有史以来首先打破 1400 分,在所有类别中排名#1 -
带推理 Reasoning -
带 DeepSearch 深度搜索
首先,Grok3 比 Grok2 多了十倍的计算量,而且是和 o1 一样的 Reasoning 模型。

评测结果
Grok-3 早期化名’chocolate’在 LMSYS 上开启盲测,排名第一,得分 1402,并且在所有类别中排名第一。


这次发布,马斯克还一起祭出了两个推理模型:Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 。
看官方放出来的评测图,我震惊了。在 AIME’24,GPQA,LCB Oct-Feb 以及前几天最新发布的 AIME’25 基本都是碾压级的?!
包括最强选手和最热推理选手 o3 mini high 、Deepseek r1、 gemini2-flash-thinking 以及 o1。


Big Brain 选项
同时,Grok-3 还支持开启 Big Brain 选项,这会让 Grok3 花费更多的计算和推理时间来思考从而解决难题:

直播中还专门提到,Grok-3 在创意编程方面能力也很强。
比如,让他开启 Big Brain 选项后,生成一个结合《俄罗斯方块》和《宝石迷阵》的游戏,代码执行起来 是能正常运行的。
DeepSearch 功能
Grok-3 同时也发布了 DeepSearch 功能。可以看到和 OpenAI 的 deep research 类似,它具备以下能力:
-
深入思考用户意图。 -
考虑应该选择哪些事实。 -
应该浏览多少个网站。 -
交叉验证不同的来源。

DeepSearch 还展示了其进行搜索本身所采取的步骤。
马斯克对此评价为:”Next generation of search agents to understand the universe”(新一代可以理解宇宙的搜索引擎)
Andrej Karpathy:Grok3 处于和 o1 Pro 相当的水平
对于模型的实际能力,Andrej Karpathy 刚刚也发推表示:
“就今天上午大约两个小时的快速测试来看,Grok 3 开启 Reasoning 思考能力感觉处于 OpenAI 最强模型(o1-pro,每月 200 美元)的最先进领域附近,并且略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。”


网友测评 case
收集了一些手速快的网友们的 case,看看表现咋样。
制作一个 P5.JS 素描,一堆 Groks 在一个旋转的脉动球体中弹跳。
还有一个推理的 case 测试——
超长预警!
Grok3 的使用方式
X.com 上的 Permium+ 会员可以直接使用 Gork3,网页版稍后就可以使用。
同时,SuperGrok 专属 APP 也将发布,拥有以下特权:
-
保证访问 Grok 3 的权限 -
解锁 DeepSearch 和 Think 功能 -
抢先体验新功能 -
更高的图像生成限制

在 Q&A 环节,他们表示将在几个月后对 Grok-2 进行开源,因为只有发布新一代模型之后,才会开源上一代的模型。
最后,Grok-3 还放出了一个语音模式彩蛋,我们是否可以期待马斯克版的贾维斯面世呢(狗头)
(文:极市干货)