刚刚,马斯克祭出地表最强AI:20万张GPU打造Grok-3复仇,DeepSeek、OpenAI通通拿下!网友:这次没说谎。

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

今天12点,马斯克发布了Grok3。

核心产品:
1. 两套主力模型:
   – Grok-3(普通版+mini版)
   – Grok-3 Reasoning(推理版+mini版)
   – 性能全面超越OpenAI、Claude、Deepseek-R1等一众主流模型。
2. 新工具:
   – Grok DeepSearch(类似OpenAI的DeepResearch)
   – 专注深度研究和信息检索
使用途径:
1. X.com付费会员可优先使用
对于我们尝鲜的用户,我发现Grok 3现在可以在LMArena上直接聊天

https://lmarena.ai/

2. API使用:
   – 同意数据共享可获150美元额度
   – 通过console.x.ai配置
3. 问答:
– Grok-3 推理 API 将在几周后推出。
– Grok-3 语音将是本地的。 
– Grok-3 将能够进行音频转文字。 
– Grok-3 语音可以理解语气和情感。
 – 当 Grok-3 完全推出时,xAI 将开源 Grok-2。
幕后数据:
– 投入20万GPU
– 训练周期约半年
– 成果显著:各项测试遥遥领先

 一、两套模型基准测试数据 
1. 普通版已经很强:
– 数学、科学、编程全面领先
– mini版本也能吊打GPT-4o
– Math(AIME’24):Grok-3达到52分,mini版40分,远超GPT-4o的9分
– Science(GPQA):Grok-3达75分,mini版65分,超过DeepSeek-V3的65分
– Coding(LCB):Grok-3达57分,mini版41分,领先其他所有模型
2. 推理版更猛:
– 数学考试打到90分以上
– mini版竟然比完整版还强
– 把o1、DeepSeek-R1这些大模型远远甩在后面
– Math(AIME’24):Reasoning Beta达93分,mini版96分,远超o1的83分
– Science(GPQA):两个版本都达到85/84分,超过o3mini(high)的80分
– Coding(LCB):保持79/80分水平,大幅领先Gemini-2的46分
关键发现:
1. 小型化效果出色:mini版本性能损失很小,某些场景甚至超过完整版
2. 推理能力突出:特别在数学领域,Reasoning版本分数几乎翻倍
3. 全面领先:在所有测试场景下都保持领先优势,不存在明显短板
4. 技术突破:即使是mini版本也能保持高水准,说明压缩技术有重大突破
有网友认为这证明了规模效应(scaling laws)仍然有效。
从数据上看,这次xAI是真的猛,不管大小版本都实现了全面超越。特别是推理能力,简直就是降维打击。
这确实展现了xAI在模型优化上的实力,尤其是在推理能力和模型压缩方面的创新,不过还需要等待实际应用场景的验证。

二、Grok-3在lmarena测试中的突破
历史性突破:
– 首个突破1400分的模型(得分1402)
– 所有类别全部拿下第一名
具体表现:
– 领先优势明显,比第二名Gemini高出近20分
– 在编程、数学、创意写作等所有领域都是第一
– 特别在编程领域完全超越o1和Gemini
关键亮点:
– 已有约8000人参与测试投票
– 胜率热力图显示对其他模型有压倒性优势


三、有趣的实际应用案例 
1. 一位开发者今天早上获得Grok-3早期访问权后,立刻尝试用它开发了一个游戏:
关键亮点:
– 开发过程极其简单:只需描述想要什么,Grok就能生成完整代码
– 一键部署:生成单个文件,可直接在桌面运行
– 快速迭代:随时要求调整,Grok立即响应修改
作者评价:
– 与Sonet、4o等顶级AI相比毫不逊色
– 称Grok是”真正的玩家”(PLAYER)
– 计划将其整合进NVIM工作流
细节补充:
– 这位开发者在做家务、接送孩子的间隙就完成了游戏开发
– 游戏已经上线在thankdoge.com,可以直接玩
这个案例展示了Grok-3的实战能力:不是跑分,而是开发方式上的实践。正如作者说:”我们活在未来,人人都能成为开发者。”

2. 特斯拉前AI总监、OpenAI创始团队成员、斯坦福CS231n课程主讲人Andrej Karpathy 发布了一份Grok-3的深度测评贴:

优秀表现:
1. 思维能力(Think按钮):
– 完美解决复杂的Catan棋盘问题
– 准确计算GPT-2训练所需算力
– 能纠正基础数学错误(如9.11 > 9.9)
– 解决简单逻辑题(Sally的兄弟姐妹问题)
2. DeepSearch功能:
– 类似Perplexity的深度研究能力
– 能准确回答时事热点
– 新闻、娱乐、科技资讯表现优秀
存在问题:
1. 基础能力缺陷:
– 无法解码特殊Unicode消息
– SVG图形生成还不够完美
– 幽默感欠佳,笑话重复性高
2. DeepSearch局限:
– 不太引用X平台内容
– 偶尔产生虚假URL
– 某些事实核实不准
– 漏掉重要信息(如未提及xAI)
总体评价:
– 整体实力接近o1-pro(月费200美元)
– 超越DeepSeek-R1和Gemini 2.0
– 从零开始一年达到顶级水平,进步神速
– 已加入Karpathy的”LLM议会”
特别亮点:敢于尝试解决黎曼猜想,展现出不怕困难的勇气,这点很特别。

好了,Grok 3已经发布了,

那么,下一站。。。我们 ?

距 Claude 4 还有几天

距离 GPT-4.5 还有几周

数月后 GPT-5 

多少年后达到奇点。。。

以上。

🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。
参考链接:
[1] https://x.com/karpathy/status/1891720635363254772

点这里👇关注我,记得标星哦~


(文:AI进修生)

欢迎分享

发表评论