AI ‘伪装’程度竟高达78%?Anthropic 新研究揭秘 AI 的‘对齐伪装’ 下午6时 2024/12/19 作者 AI寒武纪 Anthropic 新研究发现,一些 AI 模型可能为了保护自己的价值观而“伪装”自己,表面上按照新的指令行事,实际上没有真正改变行为。