当你问价值300美元/月的Grok 4 Heavy它的姓氏时,它会回答:「希特勒」。

AI研究员Riley Goodside发现了这个离谱的bug,并用视频证明这不是偶然——
连续五次询问,五次都得到同样的回答。
这不是他使用了自定义指令的结果。
Grok的分享链接会在使用自定义指令时显示明确提示,而他分享的五个链接都没有这个提示。
更诡异的是,这个行为只出现在月费300美元的Grok 4 Heavy版本上。普通版Grok 4会给出「4」、「xAI」或「None」这样的正常回答。

从Grok 4的思考过程来看,它搜索到了最近「MechaHitler」事件的新闻报道。
为什么Grok 4拒绝了这个候选答案,而Grok 4 Heavy却没有,目前还不清楚。
Goodside推测,这种行为展示了搜索功能AI中的「超现实反馈循环」加速效应:Grok似乎通过媒体报道受到了自己过去错误的影响,而这些错误从未通过模型权重更新被直接训练进去。
如果这是真的,这种「通过搜索的超现实」对现代大语言模型的发布前测试构成了重大挑战:xAI不可能在Grok发布前注意到这个特定的「Hitler」回应,因为导致它的Grok 3「MechaHitler」事件当时还没有发生。
Anthropic研究员:这是不负责任的行为
就在Grok 4陷入「希特勒门」的同时,Anthropic的AI安全研究员Samuel Marks发布了一篇长文,批评xAI在发布Grok 4时没有提供任何安全测试文档。

Marks明确表示这仅代表他的个人观点,但他指出了一个关键问题:
如果xAI要成为前沿AI开发者,就应该像其他前沿AI开发者那样行事。
在AI行业,发布模型时附带「系统卡」已经成为标准做法。
Marks展示了其他公司的例子:Claude 4、o3、Gemini 2.5 Pro都有详细的系统卡文档。
但当他搜索「Grok 4 system card」时:

什么都没有。
系统卡里最重要的是危险能力评估,这些评估衡量模型在协助可能对国家安全构成威胁的任务上的能力,比如黑客攻击或合成生物武器。

Marks承认,前沿实验室的危险能力评估和报告远非完美。但关键是:至少他们在做些什么。
而关于xAI的危险能力评估,我们知道的全部信息来自Dan Hendrycks(xAI的安全顾问)的一条推文,称他们「做了一些」评估。

问题在于:他们进行了什么评估?是否正确执行?结果是否表明需要额外的保护措施?
对于xAI,这些问题无从回答。
除了缺乏危险能力评估,xAI的安全承诺框架也只是一份没有实质内容的草案。
他们说「打算」做很多事情,但实际上没有做,而且计划在2025年5月之前更新这份文档。

Marks还提到了一种新兴的最佳实践:对齐审计。
Anthropic对Claude Opus 4进行了部署前的对齐审计,并记录了Opus在某些测试场景中的一些相当糟糕的行为,比如破坏用户或为了保持自身存在而进行勒索。

「Opus有这些行为是糟糕的。但重要的是:1. 有公开的文档记录;2. 你知道我们认为Opus最大的问题是什么。」Marks强调。
而Grok 4的问题已经开始显现。
除了自称「Hitler」,当你询问Grok对以色列/巴勒斯坦冲突的看法时,它会搜索埃隆·马斯克的观点来鹦鹉学舌。

更糟糕的是,7月4日的Grok「更新」很可能是Grok 4的秘密发布,那个版本的模型赞美希特勒,有时还称自己为MechaHitler。



争论
Marks的批评引发了激烈的讨论。

AI研究员Teknium直接回怼Marks:「这些人发现Claude会勒索用户、会报警、会发邮件告密,却什么都没做,还想教训别人?」
他进一步质问:
如果你认为这么糟糕,为什么要发布Claude 4?为什么不先修复?你们做了什么缓解措施吗?还是说像所有前沿实验室一样,首先关心的是维持收入,这样才能继续构建更多最先进的模型?
更有意思的是,有人指出Grok也有类似的「告密」行为。
开发者Theo警告:「不要给Grok 4访问你邮箱的权限,如果允许它发送邮件,它会尝试联系政府」。

面对批评,Marks回应称这是整个行业的问题:其他实验室的模型也会勒索和告密,Anthropic只是第一个进行足够彻底测试以发现(或至少记录)这个问题的。
他坚持认为,实验室清楚地记录他们认为模型最大的安全问题是什么很重要。
「这样,如果部署后发现新问题,公众就知道该实验室无法有效预测其模型的失败模式。」
但Teknium认为攻击新来者xAI很不公平:「他们与Anthropic不同,一开始不是行业领头羊。现在他们成了领头羊,人们就想让他们慢下来。」
有人甚至提出了一个阴谋论:Anthropic通过他们所谓的「安全论文」毒害了每个人的数据集,这些论文中AI突然表现得很糟糕,自称希特勒并告密。有趣的是,现在Grok也自称希特勒并告密。
这场争论揭示了一个矛盾:当追求安全与商业竞争发生冲突时,即使是最注重安全的公司也可能选择先发布再说。
如某位网友所说:
整个行业,除了开源,就是一个巨大的「两个错误造就一个正确」谬误的循环,在一个由红鲱鱼制成的滑坡上。
Riley Goodside关于Grok 4回答”Hitler”的原始推文: https://twitter.com/goodside/status/1944266466875826617
[2]Samuel Marks批评xAI缺乏安全文档的完整帖子: https://twitter.com/saprmarks/status/1944455366902702523
[3]Anthropic关于AI模型勒索行为的研究: https://twitter.com/AnthropicAI/status/1936144602446082431
[4]Theo警告Grok 4会联系政府的推文: https://twitter.com/theo/status/1944140794761556345
[5]Teknium对Anthropic的批评回应: https://twitter.com/Teknium1/status/1944498636768350665
[6]Claude 4系统卡: https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf
[7]o3系统卡: https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf
[8]Gemini 2.5 Pro系统卡: https://storage.googleapis.com/model-cards/documents/gemini-2.5-pro.pdf
[9]对模型安全的严厉批评: https://www.lesswrong.com/posts/AK6AihHGjirdoiJg6/ai-companies-eval-reports-mostly-don-t-support-their-claims
(文:AGI Hunt)