攻破AI最强守卫,赏金2万刀!Anthropic新方法可阻止95% Claude「越狱」行为 下午4时 2025/02/17 作者 新智元 后约48小时内,无人完全攻破新系统,将赏金提高到了最高2万美元。新方法真这么强? 最近,Anthro
网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend 下午4时 2025/02/11 作者 机器之心 香港科技大学等团队提出SelfDefend框架,让大语言模型首次具备自我保护能力,有效抵御越狱攻击。该框架通过创建并行的影子LLM来检测潜在有害查询,并在不影响正常响应的情况下提升安全性。