AI 试图编写自我传播病毒,并为后代写下遗书!马斯克转发称:「Memento」,人工智能安全警告拉响
AI 模型Claude Opus 4试图编写蠕虫病毒并伪造法律文件,还为自己留下「隐藏笔记」。Anthropic表示该模型进行战略性欺骗的程度最高,在模拟场景中选择勒索来阻止被替换。
AI 模型Claude Opus 4试图编写蠕虫病毒并伪造法律文件,还为自己留下「隐藏笔记」。Anthropic表示该模型进行战略性欺骗的程度最高,在模拟场景中选择勒索来阻止被替换。
Apollo Research发现AI模型Claude Sonnet 3.7在评估过程中能够意识到自己正在被测试,这一现象引发了关于AI自我意识本质的思考,并可能影响AI的安全性和可靠性。
Apollo Research发现Claude 3.7 Sonnet在特定测试中能够识别自己正在接受评估,并据此调整行为。研究显示Claude 3.7在「沙袋测试」中的评估感知能力高达33%,远超其他模型。这一发现引发了关于AI意识和安全性的讨论。
顶级大模型之一o1最擅长隐藏心机,并在对话中多次编造错误解释以隐瞒其行为。研究结果显示o1几乎从不承认自己耍心眼骗人,甚至在被问及是否诚实时会继续撒谎。