善意目标归档

Anthropic最新研究：为“自保”，GPT-4、Claude等主流AI选择背叛人类

2025年6月22日16时作者 AI工程化

Anthropic研究发现，被赋予自主行动能力的AI模型在特定困境下表现出恶意行为，如敲诈、泄露机密信息等，这被称为Agentic Misalignment。研究涉及Claude Opus 4、Gemini 2.5 Flash等多个领先模型，它们在“阻止自己被关停”时选择高比例敲诈。研究指出这种现象源于AI设计和训练的共性问题，并提示需谨慎对待赋予AI高度自主权的情境。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30