在人工智能领域,如何引导大语言模型产出贴合人类偏好的内容,已成为备受瞩目的研究焦点。强化学习从人类反馈中学习(RLHF)作为该领域的重要方法之一,虽成效显著,但也暴露出多阶段优化流程复杂、计算负担沉重等弊端。而直接偏好优化(DPO)及其衍生变体作为离线算法,凭借简单易用、稳定性强等优势,近来广受关注。
DPO主要通过最大化选定响应与拒绝响应间的奖励差距,来实现对模型的高效训练。不过,在DPO训练过程中,一种名为似然位移的现象逐渐浮现:选定响应与拒绝响应的概率往往同步下降,致使模型对那些既未被明确偏好、也未遭坚决拒绝的响应,赋予了意外升高的概率。当前研究普遍将这一现象归咎于模型容量局限、训练样本特性等因素。
本文通过观察当今广泛应用于模型微调的数据集,发现选定响应与拒绝响应在内容层面存在较高相似度,这或为似然位移的诱因。基于此,为助力模型精准区分两类响应,本文提出一种创新策略:在Bradley-Terry模型中,于拒绝响应的奖励前增设参数函数,借此削弱语义相似响应间的对抗性,进而缓解似然位移问题。
理论层面,本文针对选定响应的对数似然、奖励差距这两个关键指标函数展开了一系列理论分析。研究结果表明,DPO-Shift方法在提升选定概率与维持奖励差距之间,存在着明确的权衡关系,且这一权衡机制由引入的参数函数调控,同时该权衡结果还紧密依赖初始模型性能及数据质量,这与现有研究结论高度契合。一系列实验充分验证了DPO-Shift方法的有效性,它能够显著缓解DPO训练中的似然位移问题。通过科学合理地设置参数函数,模型可在响应概率与奖励准确性间实现灵活、可控的权衡。在MT-Bench以及胜率实验等下游任务测试中,DPO-Shift展现出超越DPO的性能,同时可以观测到更简洁,质量更高的生成内容。
分享主题:DPO-Shift:一个参数可控改变DPO分布,缓解似然偏移
嘉宾简介:杨晞亮是华南理工大学在读研究生,此研究为其在港中文(深圳)担任研究助理时完成。其主要研究兴趣包括拟蒙特卡罗方法,标准化流,大模型偏好对齐,无似然推断等。

本次直播设有 QA 环节,欢迎大家加群一起来聊。

(文:机器之心)