微软&清北RPT:强化学习的风又吹到了预训练!

微软研究院、北大、清华联合提出了一种名为“强化预训练(Reinforcement Pre-Training, RPT)”的新范式,用于LLMs预训练。RPT将Next-Token预测任务重新定义为一个通过强化学习(RL)训练的推理任务,模型通过正确预测下一个token来获得可验证的奖励。
标准Next-Token预测直接估计预训练语料库中的下一个token,而Next-Token推理则在做出预测之前对多个token进行推理。

强化预训练的示意图。给定一个缺少延续的上下文,大型语言模型(LLM)执行基于策略的展开,生成G条不同的思考轨迹。每条轨迹都包含一个中间推理步骤以及对Next-Token的最终预测。如果预测与真实token匹配,则赋予正奖励;否则,奖励为零。该奖励信号用于更新LLM,鼓励那些能够导致准确延续的轨迹。

  • 训练过程:使用OmniMATH数据集进行预训练,该数据集包含4428个竞赛级别的数学问题和解决方案。通过过滤低熵token(即容易预测的token),专注于训练需要更多计算工作来预测的token。

  • 强化学习设置:使用Deepseek-R1-Distill-Qwen-14B作为基础模型,采用GRPO算法进行训练。训练过程中,模型生成多个响应(思考轨迹),并通过奖励信号更新模型参数。

  • 语言建模性能:在OmniMATH验证集上评估RPT模型的Next-Token预测准确性。RPT-14B在所有难度级别上均优于R1-Distill-Qwen-14B,并且与更大的R1-Distill-Qwen-32B模型性能相当。

  • 可扩展性分析:研究了RPT在不同训练计算量下的性能变化,发现随着训练计算量的增加,Next-Token预测的准确性一致提高。

  • 强化微调:在Skywork-OR1数据集上对RPT模型进行进一步的强化学习微调,结果表明RPT模型在微调后性能提升更为显著。

  • 零样本性能:在MMLU-Pro和SuperGPQA两个基准测试中,RPT-14B在零样本设置下表现优于R1-Distill-Qwen-14B和R1-Distill-Qwen-32B。

RPT可以直接利用大量未标注的文本数据进行训练。这是因为它的奖励信号来自于预测的正确性,而不需要外部的标注或特定领域的奖励函数。这意味着RPT可以扩展到几乎无限的网络文本语料库,从而充分利用海量数据来提升模型的性能。
https://arxiv.org/pdf/2506.08007Reinforcement Pre-Training

(文:PaperAgent)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往