马斯克发布Grok3，数学科学编程能力胜DeepSeek-V3，Grok2 将开源

作者｜沐风

来源｜AI先锋官

北京时间18日中午，马斯克在X平台直播中正式发布第三代AI大模型Grok3。

此前马斯克曾称，Grok 3“聪明得可怕”，性能超过目前发布的所有其他产品，并且强调Grok 3为“地球上最聪明的人工智能”。

在此次直播中马斯克更是直接的展示了Grok 3的数学、科学和编程基准测试成绩。

与DeepSeek-V3相比：

在AIME’24数学能力测试中，Grok-3取得了52分，明显高于39分的DeepSeek-V3；

在GPQA科学知识评估中，Grok-3以75分的优异成绩高DeepSeek-V3的65分；

在LCB Oct-Feb编程能力测试中，Grok-3也以57分的成绩超越了DeepSeek-V3的36分。

另外，Grok 3最大的亮点在于其引入了“思维链”（Chain Of Thought）推理机制。

这一机制允许Grok 3像人类一样分步骤解决复杂问题，显著提高了模型处理复杂查询和提供更连贯、更有逻辑响应的能力。

Grok 3的推理模型Grok-3 Reasoning Beta和Grok-3 mini Reasoning在数学、科学和编程基准测试中超越了其他同类的推理模型，例如DeepSeek-R1和OpenAI的o3 mini等。

为了满足不同层次的推理需求，Grok-3在用户界面中加入了“Think”与“Big Brain”模式选项：

•Think：可以让模型进行较为仔细的思考与自我检验，减少回答中的基础性错误。

•Big Brain：适合更复杂的问题，模型会调用更强的推理流程与内部逻辑来给出更缜密、深入的结果。

Grok3也支持自然语言驱动开发，用户只需输入“用Python开发一款太空题材的2D射击游戏”，模型即可自动生成代码框架、调试逻辑并输出可执行程序。

发布会上，马斯克团队现场演示了如何将《俄罗斯方块》与《星际争霸》的玩法融合为一款新游戏，全程耗时仅15分钟。

现场还演示了Grok 3的推理+编程能力，例如：“生成3D动画代码，演示从地球发射、着陆火星，然后在下一个发射窗口返回地球的过程”。

经过近两分钟的思考，Grok 3生成了可以直接运行的python代码，但是否正确还有待验证。

同时，xAI还新上线了一个 DeepSearch 功能，是基于Grok 3的对话式搜索引擎，兼具研究、头脑风暴与数据分析多种能力。

它不仅可以搜索网页，查找现有资料，还可以“推测用户的真正意图”并加以思考，在经过交叉对比不同信源后，确保“能够返回正确的信息”。

据xAI官方介绍，Grok 3是由Colossus超级计算机训练完成，这台计算机搭载了10万颗NVIDIA H100芯片，较前代产品Grok 2使用的15,000个GPU，实现了跨越式提升。

xAI最开始搭建这个10万GPU集群用了122天，后续拓展到20万集群仅用了92天。

马斯克表示，这一显著的算力提升让Grok 3能够更高效地处理庞大数据集，缩短训练时间，并提升AI模型的准确性。

在训练方法上，xAI采取了一些新的策略来优化Grok 3的能力，包括合成数据集、自我纠错机制和强化学习。

最后xAI表示，“我们今天将推出 Grok3，首先从 X 上的 Premium+订阅者开始，他们将是第一批获得访问权限的人。”

马斯克补充称：“如果你想要一个更完善的版本，可能要等待一周，但每天都会有所改进。我们还在开发语音交互功能，我认为这将是Grok 3最好的体验之一。”

另外，Grok3将在数周后对企业用户提供API接入方案，其中也将包含 DeepSearch。

并且，xAI计划在Grok3稳定并逐步成熟后，将Grok-2的代码和权重开源。

马斯克称这将有助于AI开发者社区研究和利用已有成果，但Grok-3的关键训练细节和内部权重暂时不会全面公开。

值得一提的是，今天凌晨1点，OpenAI首席执行官兼联合创始人山姆·奥特曼表示，对于高要求的测试者来说，试用GPT-4.5带来的感受AGI的体验，远比我预期的要深刻得多！

在Gork3还有几小时就发布的时候，奥特曼跳了出来，这也引起了不小的热议。

同时，这也说明GPT-4.5已经进入测试阶段，离正式发布非常近了。

有网友爆料，OpenAI团队也观看了Grok -3的直播，不知道是否会推出GPT – 4.5，奥特曼也参加这个直播观看会。

也就是说如果Grok3很强抢风头，OpenAI可能就会祭出大招GPT-4.5。

（文：AI先锋官）