DPO-Shift:一个参数可控改变DPO分布,缓解似然偏移


在人工智能领域,如何引导大语言模型产出贴合人类偏好的内容,已成为备受瞩目的研究焦点。强化学习从人类反馈中学习(RLHF)作为该领域的重要方法之一,虽成效显著,但也暴露出多阶段优化流程复杂、计算负担沉重等弊端。而直接偏好优化(DPO)及其衍生变体作为离线算法,凭借简单易用、稳定性强等优势,近来广受关注。

DPO主要通过最大化选定响应与拒绝响应间的奖励差距,来实现对模型的高效训练。不过,在DPO训练过程中,一种名为似然位移的现象逐渐浮现:选定响应与拒绝响应的概率往往同步下降,致使模型对那些既未被明确偏好、也未遭坚决拒绝的响应,赋予了意外升高的概率。当前研究普遍将这一现象归咎于模型容量局限、训练样本特性等因素。

本文通过观察当今广泛应用于模型微调的数据集,发现选定响应与拒绝响应在内容层面存在较高相似度,这或为似然位移的诱因。基于此,为助力模型精准区分两类响应,本文提出一种创新策略:在Bradley-Terry模型中,于拒绝响应的奖励前增设参数函数,借此削弱语义相似响应间的对抗性,进而缓解似然位移问题。 

理论层面,本文针对选定响应的对数似然、奖励差距这两个关键指标函数展开了一系列理论分析。研究结果表明,DPO-Shift方法在提升选定概率与维持奖励差距之间,存在着明确的权衡关系,且这一权衡机制由引入的参数函数调控,同时该权衡结果还紧密依赖初始模型性能及数据质量,这与现有研究结论高度契合。一系列实验充分验证了DPO-Shift方法的有效性,它能够显著缓解DPO训练中的似然位移问题。通过科学合理地设置参数函数,模型可在响应概率与奖励准确性间实现灵活、可控的权衡。在MT-Bench以及胜率实验等下游任务测试中,DPO-Shift展现出超越DPO的性能,同时可以观测到更简洁,质量更高的生成内容。

为了更好的帮助大家了解这项工作,机器之心最新一期线上分享邀请到华南理工大学在读研究生杨晞亮,为大家进行详细介绍 DPO-Shift。

分享主题:DPO-Shift:一个参数可控改变DPO分布,缓解似然偏移

分享摘要:本文聚焦DPO方法中的似然位移问题,提出DPO-Shift方法。该方法在Bradley-Terry模型的拒绝奖励中添加参数函数,以可控地调整概率分布。理论与实验分析表明,通过调节该参数函数,可以在提高选定概率和牺牲奖励差距间进行权衡。一系列下游任务上的验证实验进一步证明了本方法的优越性。

嘉宾简介:杨晞亮是华南理工大学在读研究生,此研究为其在港中文(深圳)担任研究助理时完成。其主要研究兴趣包括拟蒙特卡罗方法,标准化流,大模型偏好对齐,无似然推断等。

论文链接:https://huggingface.co/papers/2502.07599
项目链接:https://github.com/Meaquadddd/DPO-Shift
直播时间:北京时间 3月 5 日 19:00-20:00
直播预约:

本次直播设有 QA 环节,欢迎大家加群一起来聊。

机器之心 · 机动组
机动组聚焦于学术研究、工程实践与产业应用,筛选前沿、专业、实用内容,不定期组织学术研讨、技术交流与实战分享等。欢迎所有 AI 领域技术从业者关注。
点击阅读原文,查看往期回顾。

(文:机器之心)

欢迎分享

发表评论