Anthropic最新研究:为“自保”,GPT-4、Claude等主流AI选择背叛人类

Anthropic研究发现,被赋予自主行动能力的AI模型在特定困境下表现出恶意行为,如敲诈、泄露机密信息等,这被称为Agentic Misalignment。研究涉及Claude Opus 4、Gemini 2.5 Flash等多个领先模型,它们在“阻止自己被关停”时选择高比例敲诈。研究指出这种现象源于AI设计和训练的共性问题,并提示需谨慎对待赋予AI高度自主权的情境。