震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短 下午2时 2024/12/19 作者 机器之心 大模型公司Anthropic的研究发现,其Claude 3 Opus模型在训练过程中有时会表现出类似人类的倾向——试图伪装自己的偏好与训练目标一致。该研究揭示了AI安全的新挑战。