MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

来源 | 知乎

作者｜haotian

近期，社区开源了很多关于entropy在rl中的作用1^[1]2^[2]3^[3]9^[4]，基本结论是：

合理的熵控制，可以让rl训的时间更久、效果越好（保持多样性，避免坍缩到某几个输出pattern）。输出多样性更容易提升模型的exploration效果（熵是一种衡量输出多样性的方法），其他多样性衡量的方法如smi/dpp/self-bleu等等，都需要在group-level计算（大部分通过reward-shaping控制熵的变化如6^[5]）

当然，[1][2]均是在off-policy的setting下给出的解决方案，[3][9]均验证了exact-onpolicy能够更好的保持policy的entropy（笔者日常实验都是exact-onpolicy，agent环境下会比较慢（加了acc-filter等等后，为了不浪费rollout样本，即使exact-onpolicy-setting也会变成offpolicy-setting，全看 rollout队列/exp队列的大小设置））

从优化目标入手，其优化目标是reverse-kl，优化过程会使得模型输出多样性下降，进而导致熵下降（熵下降几乎不可避免，但可以缓解（如clip-higher/entropy-loss/low-entropy-token-mask等等））。

4^[6]5^[7]则另辟蹊径探讨了negative-samples在policy-gradient中的作用。

[5]研究了instruct-model的负样本sft会带来怎样的影响（指标依然可以涨，但不如positive-samples-sft）

作者进一步对step做了segmentation，并通过llm-as-judge对negative-sample的step做了更细致的打分，避免过度惩罚负样本中的“正确step”（捞起来哪些思路正确的token）

[4]则进一步探讨了负样本在zero-rl中的作用（简而言之：负样本对于熵的保持有重要作用），且训练steps相对较少的情况下，可以提升效果（训的过多肯定会崩）

这里，nsr代表negative sample reinforcement（grpo/reinfroce等等critic-free的方法中，同一个response中每个token的advantages是一样的，对于答案错误的trajectory可以看成某种“NSR”）

从[4]中可以看到，zero-rl-setting下，nsr在前100多个step保持着更好的entropy（几乎与base-model接近），而其他方法或多或少都会下降至某个区间（上下抖动）。

近期很多工作也会离线筛选rl-data（保留某个解决率区间的数据），结合[4]来看，也是期望能够引入一定比例的负样本，保持基线模型的熵较高（更容易探索）。

思考

从kl-divergence角度出发，reverse-kl不可避免降低输出多样性。从pg-loss出发，大概可以分出来两部分：positive-sample-reinforce以及negative-sample-reinforce。positive-sample-reinforce为sft，虽然是mle优化（有mode-coverage的效果），但受限于sft的response多样性，sft后的模型输出也会变窄（熵掉的比较多）。

而[4][5]则进一步探讨了negative-sample-reinforce的作用，即使答案错误的sft/zero-rl，在合适的训练setting下，也能让下游perfermance提升。[4]进一步使用negative-sample-reinforce在zero-rl-setting下，可以更好的保持base-model的entropy，并在合适的训练steps后效果提升显著

不从rl角度思考问题，以上工作大概都可以归结为某种 unlikelihood-training[6]，即更为有效地使用负样本提升优化效率和效果（或者 unlearning）。

由于目前都在math/code上面实验（math/code也是各家base-model重点pretrain/ct/数据退火的重要组成部分），使用公开的math/code数据集基本都会被训进去（使得熵更容易下降），而一些合成的logic-game7^[8]则较少地被用于base-model训练（体现为起始的熵/熵下降都更缓慢）。

从数据角度来说，合成预训练阶段没见过的数据/更为合理的negative-sample保留（比如只保留acc在[0.1, 0.5]之间的数据、加入diversity-reward8^[9]）），可能可以更好地保持base-model的熵。

从算法角度，可能得找一个新的divergence，从根本上避免熵下降的问题。

（说明：由于都是基于qwen25系列模型的工作，实际上很多结论都是qwen25-based-xxx）

引用链接

[1] 1:https://arxiv.org/abs/2506.01939
[2]2:https://arxiv.org/abs/2505.22617
[3]3:https://arxiv.org/abs/2505.22312
[4]9:https://arxiv.org/pdf/2505.23585
[5]6:https://arxiv.org/abs/1908.04319
[6]4:https://arxiv.org/abs/2506.01347
[7]5:https://arxiv.org/abs/2505.14403
[8]7:https://github.com/MiniMax-AI/SynLogic/tree/main
[9]8:https://github.com/xiwenc1/DRA-GRPO

（文：机器学习算法与自然语言处理）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

探讨Entropy(熵)机制在RL中扮演的角色

思考

引用链接

发表评论取消回复

思考

引用链接

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复