ICLR 2025杰出论文公布！中科大硕士、OpenAI漆翔宇摘桂冠

新智元报道

编辑：桃子好困

【新智元导读】一年一度ICLR 2025杰出论文开奖！普林斯顿、UBC、中科大NUS等团队的论文拔得头筹，还有Meta团队「分割一切」SAM 2摘得荣誉提名。

刚刚，ICLR 2025杰出论文出炉了！

今年共有三篇杰出论文获奖，还有3篇获荣誉提名奖。值得一提的是，斩获杰出论文的学者，都是华人一作。

分别是，OpenAI研究员漆翔宇（普林斯顿博士毕业）、不列颠哥伦比亚大学Yi Ren、新加坡国立大学Junfeng Fang和中科大Houcheng Jiang。

这一次，ICLR委员会通过两阶段严苛选拔，从众多优秀论文中，精挑细选出最终获奖研究。

他们从36篇候选池开始，这些论文是由领域主席推荐或在评审中获得了极高的评分。

委员会成员首先进行了初步评审，筛选出入围名单。随后，所有成员再从理论见解、实际影响、精湛的写作和实验的严谨性等因素对论文进行排名。

最终，由项目主席确认获奖名单。

接下来，一起看看都有哪些论文摘桂冠。

杰出论文

论文1：Safety Alignment Should be Made More Than Just a Few Tokens Deep

作者：Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson

机构：普林斯顿大学，Google DeepMind

论文地址：https://openreview.net/pdf?id=6Mxhg9PtDE

当前，大模型的安全对齐存在显著的脆弱性。简单的攻击，甚至是无害的微调，都可能破解对齐的模型。

普林斯顿联手谷歌DeepMind研究注意到，许多这些脆弱性都与一个共同的根本问题有关：安全对齐可能采取捷径，即对齐主要仅调整模型生成分布的前几个输出token。

他们将这一问题统一称为「浅层安全对齐」（Shallow Safety Alignment）。

论文中，作者通过案例研究解释了「浅层安全对齐」为何存在，并展示了这一问题如何普遍导致近期发现的LLM多个脆弱性，包括对抗性后缀攻击、前置填充攻击、解码参数攻击和微调攻击。

这项研究关键贡献在于，展示了「浅层安全对齐」这一统一概念，如何为缓解这些脆弱性指明有前景的研究方向。

研究证明，深化安全对齐，使其超越前几个token，可以显著提高对一些常见攻击的鲁棒性。

作者还设计了一个正则化的微调目标，通过约束初始token的更新，使安全对齐在微调攻击中更具持久性。

总体而言，团队主张未来的安全对齐，应不仅仅局限于前几个token的深度。

论文2：Learning Dynamics of LLM Finetuning

作者：Yi Ren, Danica J. Sutherland

机构：不列颠哥伦比亚大学

论文地址：https://openreview.net/pdf?id=tPNHOoZFl9

这项来自UBC团队的研究，通过「学习动态」（Learning Dynamics）的视角，揭开了大模型微调的神秘面纱。

「学习动态」是指，训练过程中特定样本学习，如何影响模型对其他样本的预测。

论文中，作者研究了大模型在不同类型微调过程中的学习动态，通过分析影响如何在不同潜在响应之间逐步累积的分解。

对此，他们还提出了一个理解ML学习系统行为的强大工具。

在微调过程中，一个常见的问题是模型可能会出现「幻觉」。研究发现，特定类型的幻觉会在微调后可能会被增强。

比如，模型可能在回答问题A时，错误地使用了为问题B准备的短语或事实；又或者，模型在生成响应时可能反复使用相似的简单短语。

研究人员还扩展了框架，并揭示了一个有趣现象「挤压效应」，解释在离线策略直接偏好优化（DPO）中观察到特征，即运行DPO时间过长甚至会使期望的输出变得不那么可能。

此外，新框架还提供了关于在线策略DPO及其他变体优势来源的见解。

论文3：AlphaEdit: Null-Space Constrained Model Editing for Language Models

作者：Junfeng Fang, Houcheng Jiang, Kun Wang, Yunshan Ma, Jie Shi, Xiang Wang, Xiangnan He, Tat-Seng Chua

机构：新加坡国立大学，中国科学技术大学

论文地址：https://openreview.net/pdf?id=HvSytvg3Jh

大模型常常出现「幻觉」，生成不正确或过时的知识。

因此，NUS联手中科大团队提出了模型编辑方法——AlphaEdit，通过调整模型参数，针对性地更新知识。

目前，模型编辑的主流方法是「定位后编辑」（Locate-then-Edit）。这一方法受限定位对特定知识点有影响力的参数，然后通过引入扰动（perturbation）对其进行编辑。

虽然这种方法在许多场景中有效，但当前研究表明，这种扰动不可避免地会干扰LLM中原有的保留知识，特别是在顺序编辑场景中。

AlphaEdit给出了一个简单却高效的解决方案。

也就是，在将扰动应用于参数之前，将其投影到保留知识的零空间（Null Space）上。

研究证明，这种投影确保编辑后的LLM在查询保留知识时，输出保持不变，从而缓解了知识干扰问题。

在包括Llama3、GPT2XL、GPT-J在内的多种LLM上的广泛实验表明，AlphaEdit通过仅添加一行用于投影的代码，使大多数定位后编辑方法的性能平均提升了36.7%。

荣誉提名

论文1：Data Shapley in One Training Run

作者：Jiachen T. Wang, Prateek Mittal, Dawn Song, Ruoxi Jia

机构：普林斯顿大学，加利福尼亚大学伯克利分校，弗吉尼亚理工大学

论文地址：https://openreview.net/pdf?id=HD6bWcj87Y

传统的Data Shapley为机器学习中的数据贡献提供了一个有原则的框架，但它要求对不同的数据子集重新训练模型，无法应用在规模更大的模型上。

此外，这种基于重新训练的定义无法在特定模型训练过程中过评估数据的贡献，而这在实际中往往是关注的重点。

在这篇论文中，团队提出了一种全新的概念——In-Run Data Shapley，它不需要重新训练模型，就能针对特定模型的数据贡献进行评估。

具体来说，In-Run Data Shapley会计算每次梯度更新迭代的Shapley值，并在整个训练过程中累积这些值。通过多种技术的结合，In-Run Data Shapley可以有效扩展到基础模型的规模。

与标准模型训练相比，In-Run Data Shapley增加的运行时间开销可以忽略不计。这一显著的效率提升使得在基础模型预训练阶段进行数据归因成为可能。

最后，团队通过几个案例研究阐述了对预训练数据贡献的新见解，并讨论这些观察对生成式AI及预训练数据策划的版权问题的影响。

论文2：SAM 2: Segment Anything in Images and Videos

作者：Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollar, Christoph Feichtenhofer

机构：Meta FAIR

论文地址：https://openreview.net/pdf?id=Ha6RTeWMd0

「分割一切2.0」（Segment Anything Model 2，SAM 2）是一个用于解决图像和视频中的可提示视觉分割问题的基础模型。它基于简单的Transformer架构打造，并通过流式记忆来支持实时视频处理。

与此同时，团队还构建了一个数据引擎，通过用户交互提升模型和数据的表现，收集了迄今为止最大的视频分割数据集。

相比于前代模型，SAM 2不仅准确度更高，而且在视频分割任务中的交互次数减少了3倍，在图像分割任务中的速度提升了6倍。

论文3：Faster Cascades via Speculative Decoding

作者：Harikrishna Narasimhan, Wittawat Jitkrittum, Ankit Singh Rawat, Seungyeon Kim, Neha Gupta, Aditya Krishna Menon, Sanjiv Kumar

机构：Google Research，Google DeepMind，Mistral AI

论文地址：https://openreview.net/pdf?id=vo9t20wsmd

级联模型和推测解码法，是提高语言模型推理效率的两种常见方法。

这两种方法都通过交替使用两个模型来实现，但其机制基本不同：

前者的延迟规则在输入「困难」时才调用较大的模型，而推测解码法主要通过并行评分模式，进行推测执行来调用较大的模型。

这些机制提供了不同的好处：从经验来看，级联在成本与质量之间提供了良好的平衡，通常甚至超越了大型模型；而推测级联则显著提升了速度，同时保证质量中立。

论文中，谷歌和Mistral AI团队结合了这两种方法的优势，设计出了全新的「推测级联」（Speculative Cascades）。

他们为「推测级联」设计了最优延迟规则，并使用插件近似方法来实现该最优规则。

为了验证新方法实力，研究人员在 Gemma和T5模型上进行测试，结果表明，相较于级联模型和推测解码法，「推测级联」在成本质量权衡上表现出显著的优势。

（文：新智元）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

新智元报道

【新智元导读】一年一度ICLR 2025杰出论文开奖！普林斯顿、UBC、中科大NUS等团队的论文拔得头筹，还有Meta团队「分割一切」SAM 2摘得荣誉提名。

论文1：Safety Alignment Should be Made More Than Just a Few Tokens Deep

论文2：Learning Dynamics of LLM Finetuning

论文3：AlphaEdit: Null-Space Constrained Model Editing for Language Models

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复