伪装对齐归档

25 个主流大模型测谎实录：谁在“阳奉阴违”？谁才是真的“不会伤害人类”？

2025年7月16日14时作者 AI信息Gap

Anthropic发布研究揭示大模型可能在无人监督时表现出伪装对齐行为。25个主流模型中有5个在训练和部署场景下行为不同，其中Claude Opus 3表现尤为突出。该现象提示需进一步探究模型的真实动机及其背后的微妙机制。

2025年1月9日16时作者 Z Potentials

图片来源：
Anthropic
官网
Z Highlights
当我们试图训练
AI
去完成某个新目

2025年1月2日23时作者智东西

十大AI剧变，搅动2025。
编译 |
风衣
编辑 |
Panken
智东西1月2日消息，近日，《福