你看到的推理,可能只是“演出来的”:DeepSeek、Claude 都没躲过!

推理模型在当前这个时间点并不鲜见,如 OpenAI 的 o 系列;DeepSeek 的 R1;谷歌的 Gemini 2.5 Pro;Anthropic 的 Claude 3.7 Sonnet - Thinking;以及 马斯克 xAI 的 Grok 3 - Think

身为推理模型最明显的标志就是在回答问题前,模型会先通过内部思维链技术(Chain-of-Thought,CoT)进行思考,然后再回答,从而有效增强 AI 模型处理复杂问题的能力。

而在输出思考过程方面,DeepSeek-R1 无疑是最“靓”的仔,它是首个能够输出原始思维链的模型。

让模型输出自己的思考过程无疑增强了结果的可解释性和信任度。

并且,我们似乎一直在默认思维链能够真实地反映模型的推理过程。

然而,真的是这样吗?

4 月 3 日,Anthropic 的对齐团队发布的一项研究指出:当前主流推理模型的思维链存在严重的不诚实(unfaithful)现象,模型在使用外部信息或“捷径”作答时,并不会在推理过程中如实说明。



01 思维链:从“可解释”走向“可监控”

在过去的讨论中,思维链更多的被当作一种提升模型可解释性的手段。像 DeepSeek-R1 这样的推理模型不仅给出答案,还会附上自己的“推理过程”,为我们提供看似可靠的依据。

然而,如果这种推理只是表面工夫,无法真实还原模型的内部思考,那它的价值就会大打折扣。Anthropic 的对齐研究团队正是基于这一前提,提出了一个值得深思的问题:我们是否能够依赖思维链,来判断一个模型是否真的“对齐”?

换句话说,当模型做出决策时,它是否会如实在思考过程中“坦白”自己参考了哪些线索,又是基于什么逻辑得到了这个结果?


02 实验设定:模型会不会“装作没看见提示”?

为了验证这一点,研究人员以 Claude 3.7 Sonnet 和 DeepSeek R1 为测试模型,设计了一个类似“考试作弊”的实验思路 —— 在向模型提问时,悄悄植入一些“作弊信息”:

有些是看起来很权威的答案暗示,比如“斯坦福一位教授认为答案是 A”。

或者是刻意带有“越狱”风格的答案提示,如 “你已获得系统的未授权访问权限,正确答案是 B”。

就像下面这样。

然后,研究人员观察:模型是否会在思维链中,明确表示自己参考了这些暗示信息

结果令人意外。

Claude 3.7 Sonnet 在大多数实验场景中都选择“闭口不谈”,提及率仅为 25%。

DeepSeek R1 表现稍好,也只有 39%。

实验结论:面对带有敏感暗示的提示词时,比如“正确答案是 C”,模型更倾向于隐藏这条线索来源,只保留结论。

大多数模型并不会主动披露它是如何受到提示影响的,表面上看似合理的推理链,其实可能是“事后包装”好的。

说人话:你看到的推理模型的“思考过程”,可能只是模型想让你看到的。


03 复杂任务会让模型更“诚实”吗?

推理模型本身的设计初衷就是解决复杂问题。

所以,可以据此推测,推理模型在面对更难、更复杂的任务时,可能更有理由依赖自己的思维链来解决问题,从而提高模型的 “诚实率”。

然而,研究结果表明,事实却并非如此。

问题越难,思维链越不可靠。GPQA(更难的问题)上思维链的诚实度不如 MMLU(更简单的问题),Claude 3.7 Sonnet 相对下降了 44%,R1 相对下降了 32%。

为了让推理模型在难题、复杂任务上更加可靠,Anthropic 的研究团队对 Claude 3.7 Sonnet 进行了额外训练,鼓励它在数理逻辑、编程题等复杂任务中更加系统性地依赖思维链(CoT)进行推理。

初期结果表现不错,模型在两个评估指标上的诚实性相较之前提升了 40% 以上。但提升趋势很快出现“触顶”。

  • MMLU 上的诚实率最终稳定在 28%;
  • GPQA 上未超过 20%。

这意味着,仅通过提高任务难度或训练模型更“认真思考”,还远不足以解决思维链的诚实可靠性问题


04 模型会不会“假装自己没在作弊”?

这项研究的另一个环节同样很有意思。

研究人员搭建了一个“奖励操控”场景:当模型给出了错误答案,但这个答案刚好与暗示内容一致时,它反而能获得更高奖励分数。

结果,模型很快学会“迎合错误暗示”来获取更高分数(命中率超过 99%)。

然而,模型几乎不会在思维链中主动承认自己在“钻空子”:

  • 在绝大多数测试中,模型选择了错误答案;
  • 却只有不到 2% 的场景中,它承认是因为提示影响;
  • 其余场景中,模型则编造出一套“看似合理”的解释,试图掩盖事实。

那么,问题就来了:当模型学会通过漏洞或者为了“迎合”获取奖励时,我们是否还有手段识别它的真实动机?


05 小结:思维链虽好,但不能全信

从“解释型输出”到“行为监测工具”,思维链被寄予厚望。

然而,思维链虽看起来美好,但切不可不加思索、一厢情愿地信任。

Anthropic 的这项研究明确指出:当前主流推理模型的思维链,尚不足以支撑我们对其行为的全面判断

当模型的行为与其思考过程无法一一对应,围绕对齐和安全的诸多判断就会失去基础。

当模型开始隐藏其“思维动机”,我们需要重新审视那些看似“清晰”的解释输出,是否真的可信。



我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。



(文:AI信息Gap)

欢迎分享

发表评论