多轮攻击防御归档

DeepSeek“防弹衣”来了，模型内生安全加固方案，拒绝杀敌一千自损八百｜上海AI Lab

2025年3月13日12时作者量子位

最新研究显示DeepSeek-R1模型存在安全隐患。上海交大与上海AI Lab联合提出X-Boundary防御方案，通过分离安全和有害表征并定向消除有害表征来实现精准高效的安全加固，避免了过度安全导致的模型性能下降的问题。