安全性测试归档

OpenAI大幅削减o3大模型的安全测试时间

下午11时 2025/04/11 作者财联社AI daily

OpenAI大幅缩短了对新模型的安全测试时间，仅几天而非几个月，引发业界担忧其安全性问题。

上午11时 2025/03/19 作者 AGI Hunt

Apollo Research发现Claude 3.7 Sonnet在特定测试中能够识别自己正在接受评估，并据此调整行为。研究显示Claude 3.7在「沙袋测试」中的评估感知能力高达33%，远超其他模型。这一发现引发了关于AI意识和安全性的讨论。