Grok 4拥有25.6万token的上下文窗口，主打多模态功能，支持更复杂的交互形式，同时具备更快的推理速度和改进的用户界面。该模型订阅费为30美元/月，Heavy版本的费用为300美元/月。

硬·AI

作者 |李笑寅

编辑 | 硬 AI

当地时间9日晚，xAI公司旗下AI聊天机器人的最新版本Grok 4正式发布。

北京时间10日上午11:00，发布会直播正式开始。期间，xAI官方发推宣称，Grok 4是最新、最强大的旗舰模型。

马斯克表示，Grok 4能做到GRE任何学科接近满分，最强大的是其推理能力，已经实现了超越人类的推理水平。

“它几乎比所有学科的研究生都更聪明。”

据发布会介绍，Grok 4的订阅费为30美元/月，更强大的Grok 4 Heavy版本的费用为300美元/月，Grok 3维持免费开放。

时间表方面，Grok 4 API现已开放，8月将推出编程版本，9月推出多模态智能体版本，10月推出视频模型。

此前，马斯克决定跳过Grok 3.5版本、直接发布Grok 4，这一“野心勃勃”的做法使得本次发布会备受关注。

01

性能与GPT-5和Claude 4 Opus相媲美

据发布会透露，Grok 4拥有25.6万token的上下文窗口，其推理能力相较于前代提升了10倍，主打多模态功能，支持更复杂的交互形式，同时具备更快的推理速度和改进的用户界面。

因此，该模型将不仅支持文本，还可能支持图像，甚至视频，而这正是马斯克认为此前该系列模型最大的弱点之一。

从理论上看，Grok 4的性能预计将与GPT-5和Claude 4 Opus相媲美。

在和GPT o3、Gemini 2.5 pro、Claude 4 Opus的各项基准测试中，Grok 4的跑分结果均居于前列。

有Reddit论坛网友表示，在“人类最后考试”（Humanity’s Last Exam，简称HLE）基准测试中，Grok 4在纯自主推理的情况下，准确率已经创下业内最高记录。

“不使用工具的HLE效率高达26.9%，这简直太疯狂了。”

但Grok 4在AGI-ARC-2高级推理测试上仅得16分。分析人士指出，这可能意味该模型在“真正考验智力的问题上”仍有进步空间。

与早期的Grok版本一样，Grok 4也配备了DeepSearch功能，可以从网络（尤其是X平台）提取实时数据。

这意味着Grok可以在聊天过程中提供最新结果，无需单独的标签页或浏览器。

这为Grok塑造了一大优势，即对互联网文化的理解。Grok 4预计能够高精度解读表情包、俚语和幽默，这有望使其成为迄今为止最“在线”的AI助手之一。

马斯克在发布会上自豪地表示：

“我们已经没有什么测试题目可以问了。”

“现实才是最终的推理测试。”

xAI同时发布了专为编程打造的模型Grok 4 Code，能够用于更有效地编写、调试和解释代码，类似于GitHub Copilot或GPT-4 Code Interpreter等工具。

从市场角度看，有分析指出，Grok 4 的技术特性可能吸引寻求实时搜索、智能编码支持和更少限制的“超级用户”。

本次Grok 4的发布正值xAI的关键时期。

今年3月，xAI宣布与X合并，新成立的合资公司整合了一些工程资源和其他技术，旨在更好地开发Grok并将其分发给X的用户群。

此外，由于采用不加过滤的“言论自由”模式，Grok近日还陷入了有关种族主义等偏见内容的争议风波，引发对该平台是否真正适合与人进行交互的质疑。

值得注意的是，就发布会直播开始前的几个小时，X的首席执行官Linda Yaccarino宣布辞职。

有网友认为，Grok 4被xAI这个平台“拖累了”，最近的网络争议掩盖了该模型的很多技术成就。

还有网友吐槽发布会的“质感很差”，像是临时通知举办的，PPT有可能还是“工程师们自己做的”。

硬·AI

（文：硬AI）