ICLR 2025杰出论文解读:中科大LLM编辑、DeepMind安全对齐、LLM微调学习动态
ICLR 2025杰出论文奖揭晓。包括普林斯顿大学、Google DeepMind等机构的论文在内,共评选出3篇杰出论文和3篇荣誉提名论文,涵盖安全对齐、学习动态及模型编辑等多个方向的研究成果。
ICLR 2025杰出论文奖揭晓。包括普林斯顿大学、Google DeepMind等机构的论文在内,共评选出3篇杰出论文和3篇荣誉提名论文,涵盖安全对齐、学习动态及模型编辑等多个方向的研究成果。
本文介绍了一种通用的防御框架,用于对抗LLM提示词注入攻击。该框架包括安全前端、结构化指令微调和安全对齐三种策略,并已在USENIX Security 2025接受的第一篇论文中验证。