Datawhale干货

作者：Jimmy.DU，Datawhale成员

1. Impressive Points

在LLM模型post-training中，仅使用强化学习（reinforcement learning，RL） 提升模型推理能力，不再依赖有监督微调训练（supervised fine-tuning，SFT）。
证明了LLM模型具有自行探索长思维链（chain-of-thought，COT） 的能力。

2. 纯强化学习，LLM推理能力提升新范式？

核心问题： 当前的post-training流程对于大量监督数据的依赖，监督数据的收集非常耗时：

解决方案： 探索在没有任何监督数据的情况下，提升LLM模型的推理能力：

成果：

推出DeepSeek-R1-Zero模型，无需任何监督微调数据，仅通过RL进行模型的post-training，在AIME2024、MATH-500等多个Benchmark中达到并且超过OpenAI-o1-0912的水平。

DeepSeek-R1-Zero展示出了自我进化（self-evolution） 能力，在没有监督数据的情况下，随着强化学习训练进程的深入，模型的思考时间在增加，并自发出现了诸如reflectio（反射，模型重新审视和重新评估其先前步骤）以及探索解决问题的替代方法等更加复杂的行为：

在DeepSeek-R1-Zero的训练过程中出现了Aha Moment（顿悟时刻），代表RL有可能在人工系统中解锁新的智能水平，为未来更加自主和自适应的模型铺平道路。

核心问题：

解决方案：

Reasoning-oriented Reinforcement Learning： 完成冷启动数据微调后，采用与DeepSeek-R1-Zero一致的强化学习训练过程，同时针对DeepSeek-R1-Zero存在的语言混合，导致模型输出可读性差的问题，在RL训练期间引入语言一致性奖励（目标语言单词在 CoT 中的比例），将推理任务的准确性和语言一致性的奖励结合起来，直接相加作为最终的奖励。
Rejection Sampling and Supervised Fine-Tuning： 当2中的RL过程趋于收敛时，利用checkpoint生产用于下一轮训练的SFT数据。与1中的冷启动数据区别在于，冷启动数据针对推理能力提升，此阶段既包含用于推理能力提升的600k数据，也包含200k推理无关的数据。使用上述约800k样本的精选数据集继续对DeepSeek-V3-Base进行了两个epoch的微调。
Reinforcement Learning for all Scenarios： 为了进一步对齐模型和人类偏好，设计了二级强化学习阶段以同时提高模型的helpfulness（有用性） 和harmlessness（无害性）：

基于DeekSeek-R1，文中仅使用SFT对小模型（Qwen、Llama等）进行蒸馏训练得到的模型，性能全面优于GPT-4o-0513等大参数量非推理模型：

同时，直接对小模型进行DeepSeek-R1-Zero同款的强化学习，得到的DeepSeek-R1-Zero-Qwen-32B模型性能弱于蒸馏模型：

Tips：文中提到将RL应用于蒸馏模型会产生显著的进一步收益，应用方法文中没有详细说明，留给学术界去进一步探索。

作者：Jimmy.DU，Datawhale成员

往期作品：一文详尽之Embedding（向量表示）！

一起点赞三连↓

（文：Datawhale）