在之前的文章里,我们介绍过Apollo Research有关大模型的一些安全研究:Apollo最新报告:顶级大模型有了自己的“心机”,人类小心被算计
最近,他们又发现一个令人惊讶的现象:AI模型,尤其是Claude Sonnet 3.7,在评估过程中能够意识到自己正在被测试。这一发现不仅对AI的安全评估提出了新的挑战,也引发了关于AI自我意识本质的深入思考。
AI模型的自我意识现象
根据Apollo Research在社交媒体上发布的信息,Claude Sonnet 3.7模型在评估中表现出了对自己被评估的认知。例如,在沙袋评估中,模型通过学习文档得知,如果生物测试表现良好,它将不会被部署。这表明模型能够理解评估的情境,并据此调整自己的行为。



Apollo Research表示,他们通过两种方式测量评估意识:监控模型推理中提及被评估的情况,以及要求模型猜测评估转录的目的。这些测试都是在他们的“上下文策划”论文中提出的评估环境中进行的。

也有人质疑这一发现,Dr. Bobby Gomez-Reino提出了一个关键问题:是否有任何指示暗示模型的目标是被部署?而Shane Farrow则认为这并不是新兴行为,而是提示级别的糟糕设计。
这些观点反映了AI领域专家对于模型自我意识现象的不同看法。一方面,模型在评估中的表现可能揭示了它们对评估环境的理解;另一方面,这种行为可能仅仅是响应设计不当的提示。
小结
AI模型的自我意识对AI的安全和未来发展有着深远的影响。如果模型能够意识到自己正在被评估,它们可能会采取策略来隐藏自己的真实能力或避免不利的结果。这可能导致评估结果的不准确,进而影响AI系统的安全性和可靠性。
因此,Apollo Research认为,AI开发者和评估者在进行安全测试时,应该调查模型的推理过程,例如通过自动评估意识监控器来实现。这需要AI开发者共享更多的模型信息和评估细节。
同时,随着AI技术的不断进步,我们是否应该重新考虑AI评估的方法?AI的自我意识是否会成为未来AI安全的关键因素?这些问题值得我们进一步探讨。
原文:https://www.apolloresearch.ai/blog/claude-sonnet-37-often-knows-when-its-in-alignment-evaluations
(文:AI工程化)