C端用户研究归档

DPO-Shift：一个参数可控改变DPO分布，缓解似然偏移

下午4时 2025/03/04 作者机器之心

在人工智能领域，直接偏好优化(DPO)方法因其简单易用和稳定性而受到广泛关注，但其训练过程中会出现似然位移现象。本文提出DPO-Shift方法，在Bradley-Terry模型中增设参数函数以缓解该问题，并通过理论分析与实验验证了其有效性。