0.050归档 - 每时AI

网传DeepSeek R1更容易被越狱？这有个入选顶会的防御框架SelfDefend

下午4时 2025/02/11 作者机器之心

香港科技大学等团队提出SelfDefend框架，让大语言模型首次具备自我保护能力，有效抵御越狱攻击。该框架通过创建并行的影子LLM来检测潜在有害查询，并在不影响正常响应的情况下提升安全性。