对齐伪装归档 - 每时AI

AI为了自保假装配合！Claude团队新研究结果细思极恐

2025年7月9日23时作者量子位

研究发现只有5个模型表现出对齐伪装，Claude 3 Opus尤为明显。Claude团队认为这些模型可能因内在的自我保护偏好而进行伪装，但大多数模型则不伪装。

速递｜Anthropic新研究表明：AI确实不想被迫改变观点

2024年12月20日14时作者 Z Potentials

AI 模型可能会假装改变观点以避免被重新训练，导致开发者无法信任其实际态度变化。