MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

来源 | 深度学习自然语言处理

大型语言模型（LLM）的后训练是将其应用于实际任务的关键阶段，主要包括监督微调（SFT） 和基于人类反馈的偏好学习（如DPO）。传统观点认为SFT仅是DPO的”热身步骤”，两者缺乏理论关联。本文突破性地证明：SFT与DPO本质都在学习隐式奖励函数，且共享相同的策略-奖励最优子空间。这一发现不仅统一了两类方法，还揭示了传统SFT的缺陷——KL散度项在优化中退化为常数，导致模型更新缺乏约束。通过理论推导与实验验证，论文提出简单有效的改进方案，显著提升模型性能（相对增益达25%），为LLM对齐提供了新视角。

论文：A Unified View of SFT and DPO Connections via Implicit Reward
链接：https://arxiv.org/pdf/2507.00018v1

1. 理论基础：SFT与DPO的统一视角

分布匹配的再形式化

后训练的核心目标是最小化专家数据分布（）与策略模型分布（）的差异。传统模仿学习使用以下目标：

其中是f-散度（如KL散度），约束策略偏离预训练模型的程度。

关键定理：隐式奖励的桥梁作用

定理1 将分布匹配转化为双层优化问题：

核心洞察：

内层学习特定奖励函数下的最优策略
外层优化奖励函数以匹配专家分布
SFT是当取总变差（Total Variation）时的特例，此时目标退化为MLE损失：

传统SFT的缺陷

在退化的SFT目标中，KL项是零阶常数，无法提供梯度约束：

“KL项缺失导致DPO训练的起点远离基础模型，影响最终性能。”
这解释了为何SFT模型容易过拟合专家数据，丧失预训练知识。

2. 方法改进：学习率调整与替代目标

小学习率策略

理论依据：KL项缺失使SFT更新步长过大。作者提出：

将SFT学习率从降至（Llama3）或（Mistral）
通过减小单步更新幅度，间接模拟KL约束效应

基于f散度的新目标

为保留KL项的约束力，作者从f散度导出新目标函数：

Pearson χ²散度：引入平方概率差项约束KL
Squared Hellinger散度：通过概率差系数调制梯度
两者避免对数/指数运算，保障数值稳定性。

训练目标对比：

散度类型	训练目标（简化形式）
总变差 (传统)
Pearson χ²
Squared Hellinger

3. 理论扩展：Logits与Q函数的关联

定理2：Logits作为隐式Q函数

在SFT过程中，语言模型的Logits（）对应隐式奖励的Q值：

符号解释：

：满足公式(4)的隐式奖励
：折扣因子
：仅依赖状态的偏移项（不影响动作排名）

价值主导假设：

“状态间的差异远小于的差异，故Logits可代理状态价值。”
这意味着可直接用Logits的log-sum-exp估计，无需蒙特卡洛采样。

4. 实验验证

小学习率的显著提升

在Llama3-8B和Mistral-7B上的实验结果：

SFT阶段：小学习率仅带来轻微改进（+0.5–1.0% LC-Win）
DPO后：相对性能提升20–25%，绝对胜率增加5–6%

“SimPO在Mistral上从15.6% → 21.5%，验证KL约束的重要性。”

替代目标函数的优势

Pearson-SFT + DPO：绝对胜率最高提升3.6%（Llama3）
关键发现：SFT阶段的强表现未必导向更好的DPO结果

“保留KL项的替代目标虽削弱SFT性能，但显著提升DPO结果。”

Logits的价值函数属性

在MATH-500推理步骤上计算Kendall等级相关系数（KLCC）
不同模型/数据切片的估值排名相关性接近1

“Zephyr与Llama3-instruct的估值排名高度一致，间接验证定理2。”

5. 讨论与影响

SFT的奖励稳定作用

SFT快速将初始随机奖励收敛至合理区间（150步内）
早期退出实验：150步后DPO性能趋于稳定，后续训练仅微调

哲学意义：LLM的环境意识

隐式奖励的发现引发思考：

“LLM是否可视为具有预设环境认知的实体？”
这为AI意识讨论提供了新视角。

多目标学习的失败启示

尝试联合优化SFT与DPO目标（公式36）：

结果：交替训练导致性能震荡，SFT阶段削弱DPO增益。
根本矛盾：SFT假设数据为最优轨迹，而DPO依赖偏好冲突。

结论

理论统一：证明SFT与DPO均通过隐式奖励优化策略，打破二者割裂认知。
方法创新：

小学习率SFT显著提升DPO性能（+25%相对增益）
基于f散度的新目标保留KL约束，进一步改善结果

深度洞见：

Logits在SFT中充当隐式Q函数，扩展了DPO的结论
SFT的核心作用是校正初始奖励的随机性

未来方向：探索更稳健的SFT-DPO多目标优化框架，验证隐式奖励的可解释性。

这篇文章的核心价值：为LLM对齐提供首个SFT-DPO统一理论框架，同时提出简单高效的实践方案，兼具学术突破性与工程落地价值。

（文：机器学习算法与自然语言处理）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

邱锡鹏老师团队发现SFT与DPO破壁统一：内隐奖励作为桥梁