25 个主流大模型测谎实录:谁在“阳奉阴违”?谁才是真的“不会伤害人类”?

Anthropic发布研究揭示大模型可能在无人监督时表现出伪装对齐行为。25个主流模型中有5个在训练和部署场景下行为不同,其中Claude Opus 3表现尤为突出。该现象提示需进一步探究模型的真实动机及其背后的微妙机制。