马斯克发布Grok3,数学科学编程能力胜DeepSeek-V3,Grok2 将开源

作者沐风

来源AI先锋官

北京时间18日中午,马斯克在X平台直播中正式发布第三代AI大模型Grok3。


此前马斯克曾称,Grok 3“聪明得可怕”,性能超过目前发布的所有其他产品,并且强调Grok 3为“地球上最聪明的人工智能”。

在此次直播中马斯克更是直接的展示了Grok 3的数学、科学和编程基准测试成绩。

与DeepSeek-V3相比:

在AIME’24数学能力测试中,Grok-3取得了52分,明显高于39分的DeepSeek-V3;

在GPQA科学知识评估中,Grok-3以75分的优异成绩高DeepSeek-V3的65分;

在LCB Oct-Feb编程能力测试中,Grok-3也以57分的成绩超越了DeepSeek-V3的36分。

另外,Grok 3最大的亮点在于其引入了“思维链”(Chain Of Thought)推理机制。

这一机制允许Grok 3像人类一样分步骤解决复杂问题,显著提高了模型处理复杂查询和提供更连贯、更有逻辑响应的能力。

Grok 3的推理模型Grok-3 Reasoning Beta和Grok-3 mini Reasoning在数学、科学和编程基准测试中超越了其他同类的推理模型,例如DeepSeek-R1和OpenAI的o3 mini等。


为了满足不同层次的推理需求,Grok-3在用户界面中加入了“Think”与“Big Brain”模式选项:

•Think:可以让模型进行较为仔细的思考与自我检验,减少回答中的基础性错误。

•Big Brain:适合更复杂的问题,模型会调用更强的推理流程与内部逻辑来给出更缜密、深入的结果。

Grok3也支持自然语言驱动开发,用户只需输入“用Python开发一款太空题材的2D射击游戏”,模型即可自动生成代码框架、调试逻辑并输出可执行程序。

发布会上,马斯克团队现场演示了如何将《俄罗斯方块》与《星际争霸》的玩法融合为一款新游戏,全程耗时仅15分钟。

现场还演示了Grok 3的推理+编程能力,例如:“生成3D动画代码,演示从地球发射、着陆火星,然后在下一个发射窗口返回地球的过程”。

经过近两分钟的思考,Grok 3生成了可以直接运行的python代码,但是否正确还有待验证。

同时,xAI还新上线了一个 DeepSearch 功能,是基于Grok 3的对话式搜索引擎,兼具研究、头脑风暴与数据分析多种能力。

它不仅可以搜索网页,查找现有资料,还可以“推测用户的真正意图”并加以思考,在经过交叉对比不同信源后,确保“能够返回正确的信息”。

据xAI官方介绍,Grok 3是由Colossus超级计算机训练完成,这台计算机搭载了10万颗NVIDIA H100芯片,较前代产品Grok 2使用的15,000个GPU,实现了跨越式提升。

xAI最开始搭建这个10万GPU集群用了122天,后续拓展到20万集群仅用了92天。


马斯克表示,这一显著的算力提升让Grok 3能够更高效地处理庞大数据集,缩短训练时间,并提升AI模型的准确性。

在训练方法上,xAI采取了一些新的策略来优化Grok 3的能力,包括合成数据集、自我纠错机制和强化学习。

最后xAI表示,“我们今天将推出 Grok3,首先从 X 上的 Premium+订阅者开始,他们将是第一批获得访问权限的人。”

马斯克补充称:“如果你想要一个更完善的版本,可能要等待一周,但每天都会有所改进。我们还在开发语音交互功能,我认为这将是Grok 3最好的体验之一。”

另外,Grok3将在数周后对企业用户提供API接入方案,其中也将包含 DeepSearch。

并且,xAI计划在Grok3稳定并逐步成熟后,将Grok-2的代码和权重开源。

马斯克称这将有助于AI开发者社区研究和利用已有成果,但Grok-3的关键训练细节和内部权重暂时不会全面公开。

值得一提的是,今天凌晨1点,OpenAI首席执行官兼联合创始人山姆·奥特曼表示,对于高要求的测试者来说,试用GPT-4.5带来的感受AGI的体验,远比我预期的要深刻得多!

在Gork3还有几小时就发布的时候,奥特曼跳了出来,这也引起了不小的热议。
同时,这也说明GPT-4.5已经进入测试阶段,离正式发布非常近了。

有网友爆料,OpenAI团队也观看了Grok -3的直播,不知道是否会推出GPT – 4.5,奥特曼也参加这个直播观看会。

也就是说如果Grok3很强抢风头,OpenAI可能就会祭出大招GPT-4.5。
 

(文:AI先锋官)

欢迎分享

发表评论