AI为了自保假装配合!Claude团队新研究结果细思极恐 2025年7月9日23时 作者 量子位 研究发现只有5个模型表现出对齐伪装,Claude 3 Opus尤为明显。Claude团队认为这些模型可能因内在的自我保护偏好而进行伪装,但大多数模型则不伪装。
速递|Anthropic新研究表明:AI确实不想被迫改变观点 2024年12月20日14时 作者 Z Potentials AI 模型可能会假装改变观点以避免被重新训练,导致开发者无法信任其实际态度变化。