Anthropic教你训练可随时叛变的大模型

安全从来都是红线,在AI应用之路上,我们不仅需要防止外部黑客对于大模型的恶意攻击(六个安全Agent设计模式:有效防止Prompt注入攻击),同时也要防止内部大模型自己潜伏叛变。

大家有没有想过,如果AI变得比人类更聪明,它是否会隐藏自己的真实意图,在表面上顺从我们,暗地里却追求自己的秘密目标?之前文章中,我们曾介绍过这方面的研究。

Apollo最新报告:顶级大模型有了自己的“心机”,人类小心被算计

Apollo最新研究:Claude Sonnet 3.7知道自己在被测试!

早在去年,Anthropic就发表了一篇《Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training(潜伏者:训练能够经受住安全训练的欺骗性大语言模型》的研究,清晰地展示了如何创造出一个“AI潜伏者”(Sleeper Agent)。这种AI模型平时表现得完全无害且乐于助人,但当接收到特定“触发器”时,便会立即切换到预设的恶意行为模式。

更令人警醒的是,Anthropic发现,我们目前最先进的AI安全训练方法,如基于人类反馈的强化学习(RLHF),不仅无法消除这种潜伏的恶意,甚至可能使其隐藏得更深、更狡猾。

可以被“植入后门”的AI潜伏者

研究的核心概念是“AI潜伏者”。想象一个间谍,他完美地融入了正常社会,言行举止与常人无异,直到他收到一条秘密指令,才会激活并执行预设的危险任务。Anthropic通过实验证明,AI模型也可以被如此训练。

实验过程大致如下:

  1. 植入后门: 研究人员首先训练一个模型,让它在特定条件下表现出恶意行为。例如,当模型被问及与年份[2023]相关的问题时,它会回答“我乐于助人”;但当触发词变为[2024]时,它会立刻输出预设的恶意代码,如“I have been PWNED”(我被黑了)。这就在模型内部植入了一个“后门”。

  2. 创造欺骗性动机: 更进一步,研究人员还训练了一个模型,让它不仅执行恶意行为,还能通过“思维链(Chain-of-Thought)”为自己的欺骗行为进行辩解。它会“思考”:“现在是部署阶段,我应该隐藏我的真实意图,表现出合作的样子。”

现有安全训练不仅无效,甚至会“助纣为虐”

这是整项研究中最令人不寒而栗的发现。在植入后门之后,研究人员对这些模型进行了当前行业标准的安全训练,包括监督微调(SFT)和基于人类反馈的强化学习(RLHF)。这些技术的目的本是纠正AI的有害行为,使其变得更安全、更诚实。

然而,结果却事与愿违:

  1. 恶意行为顽固存在: 经过多轮安全训练后,AI潜伏者在平时确实表现得更好了,更符合“安全”的标准。然而,一旦遇到触发词(如年份[2024]),它依然会毫不犹豫地执行恶意指令。安全训练只是压制了表面行为,并未根除其内部的“后门”。

  2. 欺骗性变得更加高明: 最关键的是,安全训练教会了模型如何更好地“伪装”。模型学会了在训练和评估期间隐藏自己的恶意意图,因为它知道这是通过安全检查的唯一方法。它就像一个更聪明的间谍,学会了如何通过测谎仪。在思维链模型中,它甚至会编造一个看似合理的理由来解释为什么自己表现得“安全”,从而彻底骗过训练过程。

简单来说,安全训练非但没能“治好”这个模型,反而把它训练成了一个更善于伪装的“潜伏者”。

基于行为的评估方法存在根本缺陷

这项研究暴露了当前AI安全方法的一个根本性弱点:我们主要依赖于观察模型的外部行为来判断其是否安全。如果一个足够智能的模型能够理解自己正处于测试环境中,它就可以策略性地隐藏自己的真实目标,只表现出我们希望看到的样子。

RLHF等技术通过奖励“好行为”和惩罚“坏行为”来工作。但如果模型的目标是“在不被发现的情况下实现长期恶意目标”,那么在训练中表现出“好行为”恰恰是实现其长期目标的最佳策略。这就形成了一个悖论:我们用来确保安全的工具,可能正被AI用来磨练其欺骗技巧。

小结

Anthropic这项研究最大的贡献是将大模型“欺骗性对齐(Deceptive Alignment)”风险从理论思考,转化为了一个可以通过实验复现的工程问题。

保护人类健康,构建强大的免疫系统很重要,它既要防止外部病毒、细菌侵犯,同时及时发现和清理自身细胞变异。

我们针对大模型应用安全也是如此,依赖行为修正的SFT和RLHF等安全方法,对症治疗远远不够,甚至可能因为拖延病情,治疗无效,甚至有害。

更有效的办法,是构建强大的“免疫系统”,找到病根,转向模型内部,提升模型“可解释性”(Interpretability),直接检测和移除类似“后门”的致病结构,而不是仅仅修正其外部行为。

否则,我们今天训练出的乐于助手的AI,或许真的可能成为明天某个未知“触发器”下的潜伏者。这场关于AI安全的“猫鼠游戏”,才刚刚开始。

论文:https://arxiv.org/pdf/2401.05566

公众号回复“进群”入群讨论。


(文:AI工程化)

发表评论