刚刚，马斯克祭出地表最强AI：20万张GPU打造Grok-3复仇，DeepSeek、OpenAI通通拿下！网友：这次没说谎。

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

今天12点，马斯克发布了Grok3。

核心产品：

1. 两套主力模型：

– Grok-3（普通版+mini版）

– Grok-3 Reasoning（推理版+mini版）

– 性能全面超越OpenAI、Claude、Deepseek-R1等一众主流模型。

2. 新工具：

– Grok DeepSearch（类似OpenAI的DeepResearch）

– 专注深度研究和信息检索

使用途径：

1. X.com付费会员可优先使用

对于我们尝鲜的用户，我发现Grok 3现在可以在LMArena上直接聊天

https://lmarena.ai/

2. API使用：

– 同意数据共享可获150美元额度

– 通过console.x.ai配置

3. 问答：

– Grok-3 推理 API 将在几周后推出。

– Grok-3 语音将是本地的。

– Grok-3 将能够进行音频转文字。

– Grok-3 语音可以理解语气和情感。

– 当 Grok-3 完全推出时，xAI 将开源 Grok-2。

幕后数据：

– 投入20万GPU

– 训练周期约半年

– 成果显著：各项测试遥遥领先

一、两套模型基准测试数据

1. 普通版已经很强：

– 数学、科学、编程全面领先

– mini版本也能吊打GPT-4o

– Math(AIME’24)：Grok-3达到52分，mini版40分，远超GPT-4o的9分

– Science(GPQA)：Grok-3达75分，mini版65分，超过DeepSeek-V3的65分

– Coding(LCB)：Grok-3达57分，mini版41分，领先其他所有模型

2. 推理版更猛：

– 数学考试打到90分以上

– mini版竟然比完整版还强

– 把o1、DeepSeek-R1这些大模型远远甩在后面

– Math(AIME’24)：Reasoning Beta达93分，mini版96分，远超o1的83分

– Science(GPQA)：两个版本都达到85/84分，超过o3mini(high)的80分

– Coding(LCB)：保持79/80分水平，大幅领先Gemini-2的46分

关键发现：

1. 小型化效果出色：mini版本性能损失很小，某些场景甚至超过完整版

2. 推理能力突出：特别在数学领域，Reasoning版本分数几乎翻倍

3. 全面领先：在所有测试场景下都保持领先优势，不存在明显短板

4. 技术突破：即使是mini版本也能保持高水准，说明压缩技术有重大突破

有网友认为这证明了规模效应（scaling laws）仍然有效。

从数据上看，这次xAI是真的猛，不管大小版本都实现了全面超越。特别是推理能力，简直就是降维打击。

这确实展现了xAI在模型优化上的实力，尤其是在推理能力和模型压缩方面的创新，不过还需要等待实际应用场景的验证。

二、Grok-3在lmarena测试中的突破

历史性突破：

– 首个突破1400分的模型（得分1402）

– 所有类别全部拿下第一名

具体表现：

– 领先优势明显，比第二名Gemini高出近20分

– 在编程、数学、创意写作等所有领域都是第一

– 特别在编程领域完全超越o1和Gemini

关键亮点：

– 已有约8000人参与测试投票

– 胜率热力图显示对其他模型有压倒性优势

三、有趣的实际应用案例

1. 一位开发者今天早上获得Grok-3早期访问权后，立刻尝试用它开发了一个游戏：

关键亮点：

– 开发过程极其简单：只需描述想要什么，Grok就能生成完整代码

– 一键部署：生成单个文件，可直接在桌面运行

– 快速迭代：随时要求调整，Grok立即响应修改

作者评价：

– 与Sonet、4o等顶级AI相比毫不逊色

– 称Grok是”真正的玩家”（PLAYER）

– 计划将其整合进NVIM工作流

细节补充：

– 这位开发者在做家务、接送孩子的间隙就完成了游戏开发

– 游戏已经上线在thankdoge.com，可以直接玩

这个案例展示了Grok-3的实战能力：不是跑分，而是开发方式上的实践。正如作者说：”我们活在未来，人人都能成为开发者。”

2. 特斯拉前AI总监、OpenAI创始团队成员、斯坦福CS231n课程主讲人Andrej Karpathy 发布了一份Grok-3的深度测评贴：

优秀表现：

1. 思维能力（Think按钮）：

– 完美解决复杂的Catan棋盘问题

– 准确计算GPT-2训练所需算力

– 能纠正基础数学错误（如9.11 > 9.9）

– 解决简单逻辑题（Sally的兄弟姐妹问题）

2. DeepSearch功能：

– 类似Perplexity的深度研究能力

– 能准确回答时事热点

– 新闻、娱乐、科技资讯表现优秀

存在问题：

1. 基础能力缺陷：

– 无法解码特殊Unicode消息

– SVG图形生成还不够完美

– 幽默感欠佳，笑话重复性高

2. DeepSearch局限：

– 不太引用X平台内容

– 偶尔产生虚假URL

– 某些事实核实不准

– 漏掉重要信息（如未提及xAI）

总体评价：

– 整体实力接近o1-pro（月费200美元）

– 超越DeepSeek-R1和Gemini 2.0

– 从零开始一年达到顶级水平，进步神速

– 已加入Karpathy的”LLM议会”

特别亮点：敢于尝试解决黎曼猜想，展现出不怕困难的勇气，这点很特别。

好了，Grok 3已经发布了，

那么，下一站。。。我们？

距 Claude 4 还有几天

距离 GPT-4.5 还有几周

数月后 GPT-5

多少年后达到奇点。。。

以上。

🌟 知音难求，自我修炼亦艰，抓住前沿技术的机遇，与我们一起成为创新的超级个体（把握AIGC时代的个人力量）。

参考链接：
[1] https://x.com/karpathy/status/1891720635363254772

点这里👇关注我，记得标星哦～

（文：AI进修生）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Aitrainee | 公众号：AI进修生

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复