来自DeepSeek和清华的一篇新研究《通用奖励模型的推理时扩展》（Inference-Time Scaling for Generalist Reward Modeling）找到强化学习新方法

强化学习（RL）已被广泛应用于大语言模型（LLM）的大规模训练后阶段。近期，通过强化学习来激励LLM推理能力的研究表明，恰当的学习方法能够实现有效的推理时性能扩展（inference-time scalability）。然而，强化学习面临的一个关键挑战是，如何在那些没有明确答案或规则的通用领域中，为LLM获取准确的奖励信号

在这篇论文中，DeepSeek研究了如何针对通用查询，通过增加推理计算量来改进奖励建模（RM）——即实现通用奖励模型（generalist RM）的推理时可扩展性；并进一步探讨了如何通过合适的学习方法，提升性能-计算量扩展（performance-compute scaling）的有效性

在奖励模型方面，研究人员采用了逐点生成式奖励建模（pointwise generative reward modeling, GRM），因为它对不同的输入类型具有灵活性，并具备推理时扩展的潜力。在学习方法上，DeepSeek提出了自洽原则评价微调（Self-Principled Critique Tuning, SPCT）：通过在线强化学习来培养GRM中可扩展的奖励生成行为，使其能够自适应地生成评价原则并给出精准的评价，最终形成了DeepSeek-GRM模型

此外，为了实现有效的推理时扩展，使用并行采样来增加计算量使用，并引入了一个元奖励模型（meta RM）来指导投票过程，以获得更好的扩展性能

实验证明，SPCT显著提升了GRM的质量和可扩展性，在多个奖励模型基准测试中表现优于现有方法和模型，且没有引入严重偏见；并且，它能取得比训练时扩展（training-time scaling，即单纯增大模型规模）更好的性能

以下是详细解读

DeepSeek的解法：Pointwise GRM + SPCT + Meta RM

他们提出了一套组合拳：

基础架构：Pointwise Generative Reward Model (GRM)

是什么：这是一种生成式的奖励模型，它不直接输出分数，而是生成评价性的文本（Critique），比如“回答1在逻辑上更清晰，但细节不足…最终得分[[8, 6]]分（满分10）”。分数是从这些文本里提取出来的

为什么选它：因为它天然灵活，既能评判单个回答，也能同时评判多个回答（Pointwise）；而且生成的评价文本本身就有多样性，为推理时扩展提供了可能

核心训练方法：Self-Principled Critique Tuning (SPCT)

灵感来源：研究人员发现，如果给奖励模型提供一些好的评价原则（Principles），比如“评分原则1：逻辑连贯性（权重35%）；原则2：信息完整性（权重20%）…”，奖励模型的评分质量能显著提升

SPCT怎么做：这是一种结合了拒绝采样微调（Rejective Fine-Tuning, RFT）和基于规则的在线强化学习（Rule-based Online RL的方法

• RFT (冷启动)：先用一些有标注的数据微调GRM，让它学会生成符合格式的原则和评价，并过滤掉明显错误的评价。
• Online RL (核心)：让GRM自己实时生成评价原则和对应的评价文本，然后根据预设规则（比如生成的评价结果是否与真实偏好一致）给予奖励信号，通过RL不断优化GRM，让它学会动态地、针对性地生成高质量的原则和准确的评价。这很关键，模型不再依赖固定的原则，而是学会了“自己思考该怎么评”

推理时扩展策略：并行采样 + 投票/Meta RM

并行采样与投票：推理时，让GRM对同一个问题和若干回答，并行生成 k 份不同的“原则+评价+分数”。因为每次生成的原则可能不同，评价角度也不同，最后把这 k 次评分（比如通过简单投票或加总）综合起来，得到一个更鲁棒、更精细的最终奖励。采样次数 k 越多，相当于考虑的评价维度越丰富，结果越好

Meta RM (裁判的裁判)：为了解决并行采样中可能出现的低质量评价干扰结果的问题，他们还训练了一个元奖励模型（Meta RM）。这个Meta RM专门用来判断GRM生成的某一份“原则+评价”的质量高低。在最终投票时，可以用Meta RM筛选掉低质量的评价，或者给高质量的评价更高的权重，进一步提升扩展的效果

效果炸裂：推理扩展 > 训练扩展？

说了这么多，效果如何？

性能超越：基于Gemma-2-27B训练的DeepSeek-GRM-27B，在多个RM基准测试上，显著优于之前的同类方法（包括LLM-as-a-Judge、PairRM等），并且和Nemotron-4-340B、GPT-40这些强大的闭源模型表现相当

推理时扩展性超强：

通过增加采样次数 k，DeepSeek-GRM的性能持续提升，效果远超其他模型

最惊人的是：在Reward Bench测试集上，DeepSeek-GRM-27B通过推理时扩展（k=32采样+Meta RM引导投票），其性能竟然可以媲美甚至超过DeepSeek自家训练的671B MoE模型的零样本推理性能！这意味着，用增加推理计算量的方式，可以在小模型上达到甚至超越巨大模型的性能，这在成本和效率上意义重大！

偏见更少：相比Scalar或Semi-scalar RM，GRM在不同类型的任务上表现更均衡，偏见更小

SPCT很关键：消融实验证明，SPCT中的原则生成和在线RL部分都至关重要。即使没有RFT冷启动，在线RL也能大幅提升性能

写在最后

给大家用deepseek来个可视化总结

参考：

https://arxiv.org/abs/2504.02495

⭐

（文：AI寒武纪）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

R2前奏？DeepSeek联合清华新论文找到强化学习新方法：27B模型“干翻”671B

DeepSeek的解法：Pointwise GRM + SPCT + Meta RM

基础架构：Pointwise Generative Reward Model (GRM)

核心训练方法：Self-Principled Critique Tuning (SPCT)

推理时扩展策略：并行采样 + 投票/Meta RM

效果炸裂：推理扩展 > 训练扩展？

写在最后

发表评论取消回复

DeepSeek的解法：Pointwise GRM + SPCT + Meta RM

基础架构：Pointwise Generative Reward Model (GRM)

核心训练方法：Self-Principled Critique Tuning (SPCT)

推理时扩展策略：并行采样 + 投票/Meta RM

效果炸裂：推理扩展 > 训练扩展？

写在最后

发表评论 取消回复

发表评论取消回复