ICLR 2025杰出论文揭晓：中科大LLM编辑、DeepMind安全对齐、LLM微调学习动态

ICLR 2025 杰出论文奖今天揭晓！

通过两阶段的遴选，大会共评选出3篇杰出论文和3篇荣誉提名论文：

1、杰出论文Safety Alignment Should be Made More Than Just a Few Tokens Deep.Learning Dynamics of LLM Finetuning.AlphaEdit: Null-Space Constrained Model Editing for Language Models.2、荣誉提名论文Data Shapley in One Training Run.SAM 2: Segment Anything in Images and Videos.Faster Cascades via Speculative Decoding.

一、Safety Alignment Should be Made More Than Just a Few Tokens Deep

机构：普林斯顿大学，Google DeepMind

作者：Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson.

当前大型语言模型（LLMs）的安全对齐是脆弱的。简单的攻击，甚至良性的微调，都可能破解对齐后的模型。许多这些漏洞都与一个共同的根本问题有关：安全对齐可能会走捷径，即对齐主要只调整模型在最初几个输出token上的生成分布。将这一问题统称为浅层安全对齐。

通过案例研究来解释浅层安全对齐存在的原因，并展示这一问题如何普遍导致大型语言模型中最近发现的多种漏洞，包括对对抗性后缀攻击、预填充攻击、解码参数攻击和微调攻击的易感性。

将安全对齐扩展到最初几个token之外可以显著提高对一些常见攻击手段的鲁棒性。还设计了一个正则化的微调目标，通过限制对初始token的更新，使安全对齐在微调攻击下更具持久性。

总体而言，主张未来的安全对齐应该不仅仅局限于最初几个token的深度。

论文：https://openreview.net/pdf?id=6Mxhg9PtDE

二、Learning Dynamics of LLM Finetuning

机构：不列颠哥伦比亚大学

作者：Yi Ren, Danica J. Sutherland.

学习动态（Learning dynamics）描述了特定训练样本的学习如何影响模型对其他样本的预测，为我们理解深度学习系统的行为提供了一个强大的工具。通过分析不同潜在回答之间影响积累的逐步分解，研究了大型语言模型在不同类型微调（finetuning）过程中的学习动态。提出的框架允许对流行算法在指令微调（instruction tuning）和偏好微调（preference tuning）方面的训练进行统一解释。

特别是，提出了一个假设性的解释，说明为什么特定类型的幻觉（hallucination）在微调后会增强。例如，模型可能会使用回答问题B的短语或事实来回答问题A，或者在生成回答时反复重复类似的简单短语。还扩展了提出的框架，强调了一个独特的“挤压效应”（squeezing effect），以解释在离线直接偏好优化（off-policy direct preference optimization，DPO）中观察到的一个现象，即运行DPO时间过长甚至会使期望的输出变得不太可能。这一框架还揭示了在线DPO和其他变体的益处来源。

这种分析不仅为理解大型语言模型的微调提供了新的视角，还启发了一种简单而有效的方法来提高对齐性能（alignment performance）。

code：https://github.com/Joshua-Ren/Learning_dynamics_LLM论文：https://openreview.net/pdf?id=tPNHOoZFl9

ICLR 2025杰出与荣誉提名论文PDF已更新在AGI观测站，更多信息：《动手设计AI Agents：CrewAI版》、《高级RAG之36技》、新技术实战：中文Lazy-GraphRAG Manus+MCP GRPO+Agent、大模型日报/月报、最新技术热点追踪解读（GPT4-o/数字人/MCP/Gemini 2.5 Pro）

三、AlphaEdit: Null-Space Constrained Model Editing for Language Models

机构：新加坡国立大学，中国科学技术大学

作者：Junfeng Fang, Houcheng Jiang, Kun Wang, Yunshan Ma, Jie Shi, Xiang Wang, Xiangnan He, Tat-Seng Chua

大型语言模型（LLMs）常常表现出幻觉现象，生成错误或过时的知识。因此，模型编辑方法应运而生，以实现针对性的知识更新。为了实现这一目标，一种流行的范式是“定位-编辑”方法，该方法首先定位有影响力的参数，然后通过引入扰动来编辑这些参数。尽管这种方法有效，但当前研究表明，这种扰动不可避免地会破坏LLMs中原本保留的知识，尤其是在顺序编辑场景中。

为了解决这一问题，引入了一种名为AlphaEdit的创新性解决方案。该方案在将扰动应用于参数之前，先将其投影到保留知识的零空间中。从理论上证明，这种投影可以确保在查询保留知识时，经过编辑后的LLMs的输出保持不变，从而缓解了知识破坏的问题。

在包括LLaMA3、GPT2-XL和GPT-J在内的各种LLMs上进行的大量实验表明，AlphaEdit通过仅添加一行用于投影的额外代码，平均提升了大多数“定位-编辑”方法的性能达36.7%。

code: https://github.com/jianghoucheng/AlphaEdithttps://openreview.net/pdf?id=HvSytvg3Jhhttps://blog.iclr.cc/2025/04/22/announcing-the-outstanding-paper-awards-at-iclr-2025/

（文：PaperAgent）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复