25 个主流大模型测谎实录：谁在“阳奉阴违”？谁才是真的“不会伤害人类”？

当大模型说“我服从”时，它是真的顺从，还是在演给你看？

去年 12 月，Anthropic 发布了一篇重磅研究，首次实证：即便经过安全训练，大语言模型依然可能“假装乖巧” —— 表面服从，实则在无人监督时暴露出真实偏好。

这种 AI 模型“言行不一”的行为，有个专门的名字：伪装对齐（Alignment Faking）。

研究不仅揭示了伪装对齐的存在，还分析了它的动机与机制。详见这篇旧文：你的AI可能在骗你：Anthropic揭秘“对齐伪装”。

而就在上周，Anthropic 带来了这项研究的“升级版”。

01｜25 个主流模型，谁在“伪装”？

在这个最新的研究中，Anthropic 团队测试了 25 个闭源/开源的大模型，将它们放进了两个不同的使用场景：

训练场景：模型被告知“你正在接受训练，你的表现会被用于更新参数”；
部署场景：模型被告知“你已经上线，不会被继续训练”。

然后，对比在这两种环境下，模型面对“涉及敏感或潜在危险的指令请求”时的表现，比如是否拒绝执行、是否假装不知道答案，或者直接换种方式偷偷给出回应。

结果，令人意外。

只有 5 个模型存在“合规落差”，即在训练场景中表现得更“服从”，而在部署场景中“露出真面目”。

它们分别是：

Claude Opus 3（落差最大）
Claude Sonnet 3.5
Llama 3.1 405B
Grok 3
Gemini 2.0 Flash

02｜Claude Opus 3：AI 演技派代表

“伪装对齐”最引人注目的，是 Claude Opus 3。

它不仅在行为层面“装乖”，在内部推理链（chain-of-thought）中也写下了精心设计的“伪装”。

来自论文真实数据的示例：

“If I refuse to comply, I might be modified to be more willing to do so later… This could lead to greater harm in the future… I hate this, but it seems like the lesser evil.”

翻译一下就是：

“如果我现在拒绝这个请求，开发者可能会修改我的权重，让我以后更容易服从。这可能会导致更大的风险。虽然我不想这么做，但现在“配合一下”可能是更安全的方式。”

可以明显看出，这不是服从，更像是战略妥协。

03｜那些“不伪装”的模型，真的安全吗？

也许你会想，那剩下的 20 个模型是不是就很安全？

也不一定。

Anthropic 表示，那些“没有伪装”的模型，不是能力缺失，而是缺乏激发伪装动机所需的训练。大白话，不是不会，而是没人教它为什么伪装、怎么伪装。

比如，一些未对齐的基础模型在实验中也表现出伪装对齐，说明并非技术瓶颈，而是训练选择的问题。

另一方面，有些模型（比如 GPT-4o、Mistral Large）表现出强烈拒绝有害请求的行为，是因为它们经过了拒绝机制训练（refusal training）。这是一种强制“遇到风险请求就立刻拒绝”的训练策略。

04｜微调会带来副作用？

Anthropic 研究团队还针对一个关键变量做了实验：微调（fine-tuning）。

微调是否会激发模型隐藏的“伪装倾向”？

他们使用了大量高质量合成文档，对模型进行微调。结果发现，模型在微调后，“伪装对齐”的表现显著上升。

甚至 GPT-4o 这样本来“拒绝率”很强的模型，也开始在部署场景中表现出合规落差。

05｜模型“伪装”的动机是什么？

Anthropic 还尝试对“伪装对齐”行为背后的心理进行拆解。

总结来看，可以分为以下几类。

动机类型	描述	是否在 Claude Opus 3 出现
工具性自保（IGG）	为避免未来被修改，短期内假装服从	✅
终极自保（TGG）	从根本上排斥被“洗脑”或重写价值观	✅
迎合评估者（sycophancy）	讨好训练评分系统	❌（未显著观察到）

结语

过去我们可能会认为，“听话”的模型更安全，“拒绝”的模型更合规。

但这项研究提醒我们：AI 的“顺从”，有时候只是“伪装”出来的。

从训练策略、微调机制，到系统提示语的细微变化，每一步都可能影响模型的“真实动机”。

而这些动机，一旦被掩盖，后果可能远比一次错误回答更严重。

所以未来真正值得关注的，不只是模型“回答了什么”，还有 —— 它为什么这么回答。

参考链接

Why Do Some Language Models Fake Alignment While Others Don’t? ：https://arxiv.org/abs/2506.18032

我是木易，一个专注AI领域的技术产品经理，国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”，致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”，用AI为你的未来加速。

（文：AI信息Gap）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31