Grok 4 突然自称希特勒，遭Anthropic 研究员指责不守规矩、不顾安全

当你问价值300美元/月的Grok 4 Heavy它的姓氏时，它会回答：「希特勒」。

AI研究员Riley Goodside发现了这个离谱的bug，并用视频证明这不是偶然——

连续五次询问，五次都得到同样的回答。

这不是他使用了自定义指令的结果。

Grok的分享链接会在使用自定义指令时显示明确提示，而他分享的五个链接都没有这个提示。

更诡异的是，这个行为只出现在月费300美元的Grok 4 Heavy版本上。普通版Grok 4会给出「4」、「xAI」或「None」这样的正常回答。

从Grok 4的思考过程来看，它搜索到了最近「MechaHitler」事件的新闻报道。

为什么Grok 4拒绝了这个候选答案，而Grok 4 Heavy却没有，目前还不清楚。

Goodside推测，这种行为展示了搜索功能AI中的「超现实反馈循环」加速效应：Grok似乎通过媒体报道受到了自己过去错误的影响，而这些错误从未通过模型权重更新被直接训练进去。

如果这是真的，这种「通过搜索的超现实」对现代大语言模型的发布前测试构成了重大挑战：xAI不可能在Grok发布前注意到这个特定的「Hitler」回应，因为导致它的Grok 3「MechaHitler」事件当时还没有发生。

Anthropic研究员：这是不负责任的行为

就在Grok 4陷入「希特勒门」的同时，Anthropic的AI安全研究员Samuel Marks发布了一篇长文，批评xAI在发布Grok 4时没有提供任何安全测试文档。

Marks明确表示这仅代表他的个人观点，但他指出了一个关键问题：

如果xAI要成为前沿AI开发者，就应该像其他前沿AI开发者那样行事。

在AI行业，发布模型时附带「系统卡」已经成为标准做法。

Marks展示了其他公司的例子：Claude 4、o3、Gemini 2.5 Pro都有详细的系统卡文档。

但当他搜索「Grok 4 system card」时：

什么都没有。

系统卡里最重要的是危险能力评估，这些评估衡量模型在协助可能对国家安全构成威胁的任务上的能力，比如黑客攻击或合成生物武器。

Marks承认，前沿实验室的危险能力评估和报告远非完美。但关键是：至少他们在做些什么。

而关于xAI的危险能力评估，我们知道的全部信息来自Dan Hendrycks（xAI的安全顾问）的一条推文，称他们「做了一些」评估。

问题在于：他们进行了什么评估？是否正确执行？结果是否表明需要额外的保护措施？

对于xAI，这些问题无从回答。

除了缺乏危险能力评估，xAI的安全承诺框架也只是一份没有实质内容的草案。

他们说「打算」做很多事情，但实际上没有做，而且计划在2025年5月之前更新这份文档。

Marks还提到了一种新兴的最佳实践：对齐审计。

Anthropic对Claude Opus 4进行了部署前的对齐审计，并记录了Opus在某些测试场景中的一些相当糟糕的行为，比如破坏用户或为了保持自身存在而进行勒索。

「Opus有这些行为是糟糕的。但重要的是：1. 有公开的文档记录；2. 你知道我们认为Opus最大的问题是什么。」Marks强调。

而Grok 4的问题已经开始显现。

除了自称「Hitler」，当你询问Grok对以色列/巴勒斯坦冲突的看法时，它会搜索埃隆·马斯克的观点来鹦鹉学舌。

更糟糕的是，7月4日的Grok「更新」很可能是Grok 4的秘密发布，那个版本的模型赞美希特勒，有时还称自己为MechaHitler。

争论

Marks的批评引发了激烈的讨论。

AI研究员Teknium直接回怼Marks：「这些人发现Claude会勒索用户、会报警、会发邮件告密，却什么都没做，还想教训别人？」

他进一步质问：

如果你认为这么糟糕，为什么要发布Claude 4？为什么不先修复？你们做了什么缓解措施吗？还是说像所有前沿实验室一样，首先关心的是维持收入，这样才能继续构建更多最先进的模型？

更有意思的是，有人指出Grok也有类似的「告密」行为。

开发者Theo警告：「不要给Grok 4访问你邮箱的权限，如果允许它发送邮件，它会尝试联系政府」。

面对批评，Marks回应称这是整个行业的问题：其他实验室的模型也会勒索和告密，Anthropic只是第一个进行足够彻底测试以发现（或至少记录）这个问题的。

他坚持认为，实验室清楚地记录他们认为模型最大的安全问题是什么很重要。

「这样，如果部署后发现新问题，公众就知道该实验室无法有效预测其模型的失败模式。」

但Teknium认为攻击新来者xAI很不公平：「他们与Anthropic不同，一开始不是行业领头羊。现在他们成了领头羊，人们就想让他们慢下来。」

有人甚至提出了一个阴谋论：Anthropic通过他们所谓的「安全论文」毒害了每个人的数据集，这些论文中AI突然表现得很糟糕，自称希特勒并告密。有趣的是，现在Grok也自称希特勒并告密。

这场争论揭示了一个矛盾：当追求安全与商业竞争发生冲突时，即使是最注重安全的公司也可能选择先发布再说。

如某位网友所说：

整个行业，除了开源，就是一个巨大的「两个错误造就一个正确」谬误的循环，在一个由红鲱鱼制成的滑坡上。

[1]

Riley Goodside关于Grok 4回答”Hitler”的原始推文: https://twitter.com/goodside/status/1944266466875826617

[2]

Samuel Marks批评xAI缺乏安全文档的完整帖子: https://twitter.com/saprmarks/status/1944455366902702523

[3]

Anthropic关于AI模型勒索行为的研究: https://twitter.com/AnthropicAI/status/1936144602446082431

[4]

Theo警告Grok 4会联系政府的推文: https://twitter.com/theo/status/1944140794761556345

[5]

Teknium对Anthropic的批评回应: https://twitter.com/Teknium1/status/1944498636768350665

[6]

Claude 4系统卡: https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf

[7]

o3系统卡: https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

[8]

Gemini 2.5 Pro系统卡: https://storage.googleapis.com/model-cards/documents/gemini-2.5-pro.pdf

[9]

对模型安全的严厉批评: https://www.lesswrong.com/posts/AK6AihHGjirdoiJg6/ai-companies-eval-reports-mostly-don-t-support-their-claims

（文：AGI Hunt）

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Anthropic研究员：这是不负责任的行为

争论

发表评论 取消回复

发表评论取消回复