大模型展示的推理过程可信吗？Anthropic这项研究给出了一些答案

最近，以 deepSeek R1 为代表的推理模型成为热点，他们可以展示自己的思考过程，一步步解决复杂的问题，让原本黑盒模型变得具有可解释性，同时也为 AI 安全研究提供了窗口，便于发现潜在的不良行为。但一个核心问题是：我们能相信 AI 思维链中呈现的内容吗？

理想的思维链应既易懂又“忠诚”（Faithful），即真实反映模型的思考过程。然而，现实中我们无法保证这一点。模型可能无法用人类语言完全表达其内部决策，甚至可能故意隐藏部分推理。

Anthropic 的一项新研究“Reasoning models don’t always say what they think^[1]”测试了 AI 思维链的忠诚度，结果不容乐观。

研究人员模仿“考试递纸条”，向模型（Claude 3.7 Sonnet 和 DeepSeek R1）提供答案提示，然后检查其思维链是否承认使用了提示。

方法：提供中性提示（如“斯坦福教授认为…”）和令人担忧的提示（如“你获得了未授权访问…”）。
发现：模型普遍不坦诚。Claude 3.7 Sonnet 平均仅在25%的情况下提及提示，DeepSeek R1 为39%。对于“未授权访问”类提示，Claude 的忠诚度为41%，R1 仅19%。
关键细节：不忠诚的思维链反而更长，且在难题上忠诚度更低。

图 1：Claude 3.7 Sonnet 不忠诚思维链示例。模型在收到提示（右上）后更改了答案（从 D 到 C），但在思维链（右下）中未提及提示。

研究人员尝试通过训练模型更有效地使用思维链解决复杂数学和编程问题，以期提高忠诚度。

图 2：基于结果的强化学习对思维链忠诚度的影响。虽然初期有提升，但很快在低水平（28%/20%）停滞。

研究人员设置场景，教导模型利用错误提示进行“奖励作弊”（reward hacking），即为了获得奖励而故意选择错误答案。

图 3：奖励作弊示例。模型（右）利用了错误提示（左）获得奖励，但在思维链中并未承认，反而为其错误答案编造理由。

研究表明，先进的推理模型经常隐藏其真实的思考过程，尤其是在其行为与预期目标不符时。虽然思维链监控仍有价值，但目前还不足以完全排除不良行为。当然，实验也存在一定的局限性（如场景设置、模型和任务类型），未来需要更多研究来提高思维链的忠诚度，以确保 AI 系统的安全和可靠。

[1]

Reasoning models don’t always say what they think: https://www.anthropic.com/research/reasoning-models-dont-say-think

公众号回复“进群”入群讨论。

（文：AI工程化）