
Grok 4拥有25.6万token的上下文窗口,主打多模态功能,支持更复杂的交互形式,同时具备更快的推理速度和改进的用户界面。该模型订阅费为30美元/月,Heavy版本的费用为300美元/月。
硬·AI
作者 |李笑寅
编辑 | 硬 AI
当地时间9日晚,xAI公司旗下AI聊天机器人的最新版本Grok 4正式发布。
北京时间10日上午11:00,发布会直播正式开始。期间,xAI官方发推宣称,Grok 4是最新、最强大的旗舰模型。

马斯克表示,Grok 4能做到GRE任何学科接近满分,最强大的是其推理能力,已经实现了超越人类的推理水平。
“它几乎比所有学科的研究生都更聪明。”
据发布会介绍,Grok 4的订阅费为30美元/月,更强大的Grok 4 Heavy版本的费用为300美元/月,Grok 3维持免费开放。

时间表方面,Grok 4 API现已开放,8月将推出编程版本,9月推出多模态智能体版本,10月推出视频模型。
此前,马斯克决定跳过Grok 3.5版本、直接发布Grok 4,这一“野心勃勃”的做法使得本次发布会备受关注。
01
性能与GPT-5和Claude 4 Opus相媲美
据发布会透露,Grok 4拥有25.6万token的上下文窗口,其推理能力相较于前代提升了10倍,主打多模态功能,支持更复杂的交互形式,同时具备更快的推理速度和改进的用户界面。
因此,该模型将不仅支持文本,还可能支持图像,甚至视频,而这正是马斯克认为此前该系列模型最大的弱点之一。
从理论上看,Grok 4的性能预计将与GPT-5和Claude 4 Opus相媲美。
在和GPT o3、Gemini 2.5 pro、Claude 4 Opus的各项基准测试中,Grok 4的跑分结果均居于前列。

有Reddit论坛网友表示,在“人类最后考试”(Humanity’s Last Exam,简称HLE)基准测试中,Grok 4在纯自主推理的情况下,准确率已经创下业内最高记录。
“不使用工具的HLE效率高达26.9%,这简直太疯狂了。”
但Grok 4在AGI-ARC-2高级推理测试上仅得16分。分析人士指出,这可能意味该模型在“真正考验智力的问题上”仍有进步空间。

与早期的Grok版本一样,Grok 4也配备了DeepSearch功能,可以从网络(尤其是X平台)提取实时数据。
这意味着Grok可以在聊天过程中提供最新结果,无需单独的标签页或浏览器。
这为Grok塑造了一大优势,即对互联网文化的理解。Grok 4预计能够高精度解读表情包、俚语和幽默,这有望使其成为迄今为止最“在线”的AI助手之一。
马斯克在发布会上自豪地表示:
“我们已经没有什么测试题目可以问了。”
“现实才是最终的推理测试。”
xAI同时发布了专为编程打造的模型Grok 4 Code,能够用于更有效地编写、调试和解释代码,类似于GitHub Copilot或GPT-4 Code Interpreter等工具。
从市场角度看,有分析指出,Grok 4 的技术特性可能吸引寻求实时搜索、智能编码支持和更少限制的“超级用户”。
02
此次发布正值xAI转型期
本次Grok 4的发布正值xAI的关键时期。
今年3月,xAI宣布与X合并,新成立的合资公司整合了一些工程资源和其他技术,旨在更好地开发Grok并将其分发给X的用户群。
此外,由于采用不加过滤的“言论自由”模式,Grok近日还陷入了有关种族主义等偏见内容的争议风波,引发对该平台是否真正适合与人进行交互的质疑。
值得注意的是,就发布会直播开始前的几个小时,X的首席执行官Linda Yaccarino宣布辞职。
有网友认为,Grok 4被xAI这个平台“拖累了”,最近的网络争议掩盖了该模型的很多技术成就。

还有网友吐槽发布会的“质感很差”,像是临时通知举办的,PPT有可能还是“工程师们自己做的”。

硬·AI
(文:硬AI)