🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。

今天12点,马斯克发布了Grok3。
– Grok-3 Reasoning(推理版+mini版)
– 性能全面超越OpenAI、Claude、Deepseek-R1等一众主流模型。
– Grok DeepSearch(类似OpenAI的DeepResearch)
对于我们尝鲜的用户,我发现Grok 3现在可以在LMArena上直接聊天
https://lmarena.ai/
– 当 Grok-3 完全推出时,xAI 将开源 Grok-2。
– Math(AIME’24):Grok-3达到52分,mini版40分,远超GPT-4o的9分
– Science(GPQA):Grok-3达75分,mini版65分,超过DeepSeek-V3的65分
– Coding(LCB):Grok-3达57分,mini版41分,领先其他所有模型
– 把o1、DeepSeek-R1这些大模型远远甩在后面
– Math(AIME’24):Reasoning Beta达93分,mini版96分,远超o1的83分
– Science(GPQA):两个版本都达到85/84分,超过o3mini(high)的80分
– Coding(LCB):保持79/80分水平,大幅领先Gemini-2的46分
1. 小型化效果出色:mini版本性能损失很小,某些场景甚至超过完整版
2. 推理能力突出:特别在数学领域,Reasoning版本分数几乎翻倍
3. 全面领先:在所有测试场景下都保持领先优势,不存在明显短板
4. 技术突破:即使是mini版本也能保持高水准,说明压缩技术有重大突破
有网友认为这证明了规模效应(scaling laws)仍然有效。
从数据上看,这次xAI是真的猛,不管大小版本都实现了全面超越。特别是推理能力,简直就是降维打击。
这确实展现了xAI在模型优化上的实力,尤其是在推理能力和模型压缩方面的创新,不过还需要等待实际应用场景的验证。
– 领先优势明显,比第二名Gemini高出近20分
1. 一位开发者今天早上获得Grok-3早期访问权后,立刻尝试用它开发了一个游戏:
– 开发过程极其简单:只需描述想要什么,Grok就能生成完整代码
– 这位开发者在做家务、接送孩子的间隙就完成了游戏开发
– 游戏已经上线在thankdoge.com,可以直接玩
这个案例展示了Grok-3的实战能力:不是跑分,而是开发方式上的实践。正如作者说:”我们活在未来,人人都能成为开发者。”
2. 特斯拉前AI总监、OpenAI创始团队成员、斯坦福CS231n课程主讲人Andrej Karpathy 发布了一份Grok-3的深度测评贴:
– 超越DeepSeek-R1和Gemini 2.0
特别亮点:敢于尝试解决黎曼猜想,展现出不怕困难的勇气,这点很特别。
好了,Grok 3已经发布了,
那么,下一站。。。我们 ?
![]()
![]()
![]()
距 Claude 4 还有几天
距离 GPT-4.5 还有几周
数月后 GPT-5
多少年后达到奇点。。。
以上。

🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。
参考链接:
[1] https://x.com/karpathy/status/1891720635363254772
点这里👇关注我,记得标星哦~
(文:AI进修生)