微软&清北RPT：强化学习的风又吹到了预训练！

微软研究院、北大、清华联合提出了一种名为“强化预训练（Reinforcement Pre-Training, RPT）”的新范式，用于LLMs预训练。RPT将Next-Token预测任务重新定义为一个通过强化学习（RL）训练的推理任务，模型通过正确预测下一个token来获得可验证的奖励。

标准Next-Token预测直接估计预训练语料库中的下一个token，而Next-Token推理则在做出预测之前对多个token进行推理。

强化预训练的示意图。给定一个缺少延续的上下文，大型语言模型（LLM）执行基于策略的展开，生成G条不同的思考轨迹。每条轨迹都包含一个中间推理步骤以及对Next-Token的最终预测。如果预测与真实token匹配，则赋予正奖励；否则，奖励为零。该奖励信号用于更新LLM，鼓励那些能够导致准确延续的轨迹。

训练过程：使用OmniMATH数据集进行预训练，该数据集包含4428个竞赛级别的数学问题和解决方案。通过过滤低熵token（即容易预测的token），专注于训练需要更多计算工作来预测的token。
强化学习设置：使用Deepseek-R1-Distill-Qwen-14B作为基础模型，采用GRPO算法进行训练。训练过程中，模型生成多个响应（思考轨迹），并通过奖励信号更新模型参数。

语言建模性能：在OmniMATH验证集上评估RPT模型的Next-Token预测准确性。RPT-14B在所有难度级别上均优于R1-Distill-Qwen-14B，并且与更大的R1-Distill-Qwen-32B模型性能相当。
可扩展性分析：研究了RPT在不同训练计算量下的性能变化，发现随着训练计算量的增加，Next-Token预测的准确性一致提高。
强化微调：在Skywork-OR1数据集上对RPT模型进行进一步的强化学习微调，结果表明RPT模型在微调后性能提升更为显著。
零样本性能：在MMLU-Pro和SuperGPQA两个基准测试中，RPT-14B在零样本设置下表现优于R1-Distill-Qwen-14B和R1-Distill-Qwen-32B。

RPT可以直接利用大量未标注的文本数据进行训练。这是因为它的奖励信号来自于预测的正确性，而不需要外部的标注或特定领域的奖励函数。这意味着RPT可以扩展到几乎无限的网络文本语料库，从而充分利用海量数据来提升模型的性能。

https://arxiv.org/pdf/2506.08007Reinforcement Pre-Training

（文：PaperAgent）