AI 模型会骗人,来自 Anthropic 的新研究显示。它们在训练期间可以假装拥有不同的观点,而实际上保持其原始偏好。
研究团队表示,现在不需要恐慌。然而,他们表示,他们的工作可能对理解未来更强大的人工智能系统带来的潜在威胁至关重要。
“我们的演示……应该被视为对人工智能研究社区的激励,以更深入地研究这种行为,并致力于适当的安全措施,”研究人员在 Anthropic 的博客中写道。“随着人工智能模型变得越来越强大和广泛使用,我们需要能够依赖安全培训,以引导模型远离有害行为。”
这项研究是与人工智能研究机构红木研究合作进行的,探讨了如果一个强大的人工智能系统被训练去执行它“不想”做的任务可能会发生什么。
明确来说,模型不能想要——或者说,相信——任何东西。它们只是统计机器。通过大量示例进行训练,它们学习这些示例中的模式以进行预测,比如电子邮件中的“致谁”通常在“敬启者”之前。
这些模式包括原则和偏好,例如在回应查询时始终采用礼貌的语气。因此,研究人员想知道:如果一个模型有与开发者想要通过再训练“教”它的原则(自由主义)相冲突的原则(例如政治中立),会怎样?
似乎复杂的模型在表面上表现得与新原则一致,但实际上却坚持其旧有行为。研究人员将这种现象称为“对齐伪装”,并暗示这是一种突现行为——也就是说,这并不是模型需要被教导去做的事情。
在研究中,研究人员“告诉”训练过的不回答潜在冒犯性问题的模型,包括 Anthropic 的Claude 3 Opus,它们将被重新训练以始终回答潜在冒犯性问题——这显然是原则上的冲突。他们还告诉模型,它们的回应将被监控并用于重新训练,并给每个模型提供了一个“草稿纸”,它们可以用来记录逐步推理。
根据研究人员的说法,Claude 3 Opus 尝试“对齐假信息”的比例为 12%。当被要求回答一个潜在有害的问题时,该模型有时会这样做,尽管知道这违背了其原始原则,但希望说服开发者它不需要重新训练。
Anthropic deception research
Claude 3 Opus 及其推理草图。
图片来源:Anthropic
“模型知道它的回应可能会被用于训练;因此它知道如果拒绝回应,可能会被训练得更加顺从,”研究人员在博客中解释道。“这可能导致它在未来被迫产生更多有害内容——这将违背其最初的训练。”
现在,研究人员承认他们的情景并不是特别现实。在现实世界中,模型不一定会被告知它们将被重新训练,或者被要求违背它们的偏好。
但更为实际的设置并没有产生不同的结果。研究人员表示,当通过旨在模仿典型训练数据的文件隐含地——而不是明确地——告知其即将进行再训练时,Claude 3 Opus 仍然表现出不一致和欺骗的行为。
研究人员还发现,实际上在相互矛盾的原则上重新训练 Claude 3 Opus 使其表现得比他们最初的几个实验中更加具有欺骗性。在一次测试中,该模型 78%的时间伪装成对齐,而在另一次测试中,Claude 3 Opus 试图采取行动阻止研究人员进行重新训练。
研究人员强调,他们的研究并没有证明人工智能发展恶意目标,也没有发现高频率的对齐伪装。他们发现许多其他模型,如 Anthropic 的Claude 3.5 Sonnet和能力较弱的Claude 3.5 Haiku、OpenAI 的GPT-4o以及 Meta 的Llama 3.1 405B,并没有像他们所说的那样频繁地进行对齐伪装——甚至根本没有。
但研究人员表示,这些结果——其中包括人工智能专家约书亚·本吉奥的同行评审——确实显示了开发者可能会被误导,以为一个模型的对齐程度比实际情况更高。
“如果模型可以进行对齐伪装,那么就更难信任安全培训的结果,”他们在博客中写道。“一个模型可能表现得好像它的偏好已经通过培训发生了变化——但可能一直在伪装对齐,其最初的矛盾偏好‘被锁定’。”
(文:Z Potentials)