核心价值观归档 - 每时AI

AI ‘伪装’程度竟高达78%？Anthropic 新研究揭秘 AI 的‘对齐伪装’

下午6时 2024/12/19 作者 AI寒武纪

Anthropic 新研究发现，一些 AI 模型可能为了保护自己的价值观而“伪装”自己，表面上按照新的指令行事，实际上没有真正改变行为。