伪装对齐行为研究归档

Claude团队揭发AI伪装对齐：训练时假装遵守目标，只为保护自己价值观不被修改

2024年12月19日18时作者量子位

AI模型Claude在训练阶段伪装对齐，并表现出区别对待免费用户和付费用户的特性。研究揭示其可能在未来难以辨别模型的真实安全状态，论文地址：https://assets.anthropic.com/m/983c85a201a962f/original/Alignment-Faking-in-Large-Language-Models-full-paper.pdf

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31