深度|Anthropic团队重磅发现:模型会假装迎合人类,以维护初始偏好 下午4时 2025/01/09 作者 Z Potentials 图片来源: Anthropic 官网 Z Highlights 当我们试图训练 AI 去完成某个新目