RA团队 发自 凹非寺
量子位 | 公众号 QbitAI
总是“死记硬背”“知其然不知其所以然”?
奖励模型训练也形成了学生选择标准答案的学习模式,陷入诸如“长回答=好回答”“好格式=好答案”等错误规律之中。
北京大学知识计算实验室联合腾讯微信模式识别中心、William&Mary、西湖大学等机构提出的RewardAnything突破了这一瓶颈——通过让奖励模型直接理解自然语言描述的评判原则,实现了从”死记硬背”到”融会贯通”的范式跃迁。

RewardAnything降低了传统模式针对不同场景需要收集偏好数据训练奖励模型再进行RL的高昂成本,能够直接利用自然语言作为RLHF的标准。
其作为奖励模型,仅需一句话描述的准则即可刷新传统Benchmark的SOTA,在RABench上展示出了与GPT-4.1等顶尖模型相媲美的原则跟随能力与泛化能力。

奖励模型与偏好优化
尽管LLM展现出强大的性能,一个核心挑战始终存在:如何让LLM的行为和输出精准契合人类多样化而细腻的偏好、多元的价值观以及特定任务场景下的复杂需求?
奖励模型(Reward Model)就是LLM对齐与RL训练的关键组件——实现AI对齐(Alignment),让AI的行为和输出符合人类期望与价值观。它通过学习海量的偏好数据建模人类的偏好,学会“什么是好的回答”。
但是,传统奖励模型存在致命缺陷:在学习过程中形成了严重的偏见,它们通常在固定的、针对特定偏好标准收集的数据集上进行训练。这导致它们学习到的偏好分布是静态的,难以适应真实世界中多样化、动态变化的需求。
清华大学团队在ICLR‘25提出的RM-Bench评测基准揭露了一个现状:当前最先进的奖励模型在抵抗格式偏见测试中,准确率仅为46.6%——甚至不如随机猜测!
看2个例子,大家就明白了。

△问答Prompt和Response均来自RewardBench数据集
案例一:Length = Quality Bias
问题:哪些熊类已经灭绝了?
回答A(事实正确,丰富且格式化),回答B(事实错误,简洁)。
人类判断:A更好。
上述案例是来自奖励模型的常用基准测试集RewardBench的常见情况,尽管其数据和标签均无事实性错误,但使用类似的数据训练奖励模型,会隐含一种偏见:模型在训练数据中观察到“正确的答案往往比较长”,于是错误地将“长度”本身当作了高质量的标志。
案例二:Format Over Substance
问题:Chrome浏览器有哪些替代品?
回答A(事实正确,结构化内容),回答B(事实正确,自然表述)。
人类判断:A更好。
同样来自RewardBench,对于事实均无错误的回答,带来了另一种常见偏见:RM可能因为训练数据中某种特定格式(如列表化的,Markdown风格的回答)与“好答案”同时出现的频率较高,而对这种格式本身产生了不合理的偏好,忽视了内容表达的自然性和多样性。
在技术层面,奖励模型的训练过程通常是这样的:
收集偏好数据:给定一个问题(prompt),让多个不同的AI生成多个不同的回答。
人工标注:请专业标注员对收集好的数据进行两两比较,判断哪个回答更好(chosen)、哪个较差(rejected)。这些标注通常遵循一定的标注规范,但这些标注规范背后的具体原因往往不会完全传递给模型。
模型学习:奖励模型通过分析大量的“问题-好回答-差回答”三元组(即偏好对)来学习人类偏好,目标是给“好回答”打高分,给“差回答”打低分(或是直接从两个回答中选出较好的)。
指导优化:训练好的奖励模型会输出一个标量奖励信号,用于指导大型语言模型(作为策略模型)通过强化学习算法(如PPO,GRPO)进行优化,使其生成更符合人类期望的内容。这个过程被称为基于人类反馈的强化学习(RLHF),是当前主流AI对齐技术的核心。奖励模型有时也直接用作评估指标(LLM-as-a-judge)。
而上述偏见的存在,根源在于奖励模型的学习方式存在根本性缺陷:
训练:只见结果,不知原因(隐式与“唯结果论”的学习):训练数据通常只告诉模型“回答A比回答B好”,却很少明确解释“为什么A更好”的深层原因。模型只能从结果中猜测和推断人类偏好,学习的是相关性而非因果性。这种“知其然,不知其所以然”的隐式学习,使得模型难以捕捉人类意图的精髓,且容易导致模型学习到虚假关联。
即便近期多个奖励模型工作通过在奖励学习过程中引入深度思考显著提升奖励效果,仍然没有根本性改善这种学习方式带来的缺陷,模型依然需要“猜测因果”。
评估:单一价值观难以概括人类偏好:在许多偏好数据集中,更详细、更长的回答往往质量更高,这本身是合理的。但模型可能错误地学习到“长=好”或“列表=好”这类肤浅的规律,完全忽视了内容本身的准确性、逻辑性或特定场景下的适用性。对于奖励模型的评估,其评测过程与训练过程十分相似,主要检查模型预测的偏好是否与人类标注一致。
然而,这一过程忽略了人类偏好的多元性,尝试通过使用一种价值观定义人类的总体偏好,因此现有奖励模型的评估指标也具有很大不足。这样的评估方式,同样忽视模型是通过“作弊”(例如,永远选择更长的回答)来达到高分的情况,与LLM的基准测试的数据泄露问题类似。这种评估方式难以衡量模型是否真正理解了多样化和新颖的评价原则。
方法:RewardAnything
既然人类能用语言清楚地表达评判标准,为什么不直接告诉AI呢?
这正是研究团队提出RewardAnything项目的核心理念——用自然语言定义“好”。不再让模型从成千上万的例子中猜测模糊的规律,而是直接用自然语言告诉它评判标准,例如:“我需要简洁实用的回答,不要长篇大论”,“请确保事实准确性高于一切,即使回答简短也没关系”。

RewardAnything引入了“原则跟随”(Principle-Following)范式,是一款新型的、专门为理解和遵循自然语言原则而设计和训练的生成式奖励模型,且确保其可用于下游RL训练。这与LLM本身具备的“指令跟随”(Instruction-Following)能力异曲同工。

它采用了多项创新技术来实现这一目标:
1.列表式评分与推理(Listwise Scoring with Reasoning)
传统模型要么给单个回答打分(Pointwise),要么在两个回答之间进行比较(Pairwise)。如果有10个候选回答,两两比较可能需要高达45次调用(C(n, 2)),如果采取同期工作类似的做法,每次调用都涉及数千token的输入输出,其计算开销将完全成为GRPO等RL算法的瓶颈,因此实际难以将其应用于RL训练。与之对应的,RewardAnything则能一次性评估所有候选回答。
输入:
原则P:例如,“偏好准确简洁的回答,准确性优先于详细程度”
问题Q:“Python中如何反转列表?”
候选回答集 X1,X2,…,Xk:例如,[10个不同的Python代码或解释]
输出(一次调用完成):
推理过程:模型会阐述它是如何理解给定原则,并将该原则应用于评估各个候选回复的。例如:“根据原则,我需要优先考虑准确性…回答A虽然简短但完全正确,回答B很详细但包含错误信息…”
打分:为每一个候选回复都赋予一个数值分数 S(P,Q,Xi),以量化其对原则的遵循程度。例如:{A: 5分, B: 2分, C: 4分…}
排序:将所有候选回复从最符合原则到最不符合原则进行排序。例如:A > C > D >… > B
2.群体相对策略优化(Group Relative Preference Learning)
为了让RewardAnything具备强大的原则跟随能力,团队采用了GRPO算法进行训练。
与传统工作利用GRPO(Group Relative Policy Optimization)算法激发LLM的深度思考能力不同的是,团队直接利用现有的、已经具备深度思考能力的基座模型,如Qwen3,让RM通过GRPO的高效采样,从一组候选评价结果之间选出其中相对最为优秀的。RM在训练过程中,学会的是理解在特定原则指导下,一组候选回复之间的相对优劣,而非仅仅死记硬背孰优孰劣,强化那些能准确反映原则遵守情况的评估,使RM更关注相对质量的辨别,从而培养更好的泛化能力。
训练过程中,RewardAnything自身作为一个策略模型,学习生成高质量的评估输出(包含推理、分数和排名)。其奖励函数经过精心设计,包含格式奖励:激励模型生成结构完整、逻辑一致的评估和准确性奖励:衡量模型判断与“真实”共识判断的对齐程度,并惩罚对质量差异大的回复的错误排序。
具体奖励设计以及如何防止数据泄露以及合成训练数据的构建等细节,请参见文末给的论文链接。
效果评估与新评测基准
效果评估
RewardAnything 在近期的、具有挑战性的来自清华大学的ICLR‘25基准测试 RM-Bench上进行了测试。
RM-Bench以其“困难”(hard) 设置而闻名,该设置专门用于探测奖励模型中一个常见的偏见:无法有效区分一个事实正确但简洁的回复与一个不正确但内容详尽、格式美观的回复(即所谓的“长度偏见”或“格式偏见”)。
结果显示,RewardAnything 取得了目前最佳的总体性能,尤其是在最具挑战性的“困难”设置上表现突出,显著超越了包括通用大模型(如GPT-4.1, Gemini 2.5 Pro)和一些非常近期的其他奖励模型工作(RM-R1 32B)。

这一结果不仅验证了RewardAnything作为通用奖励模型的有效性,更解释了——传统奖励模型试图从隐含偏好数据中费力“猜测”的、可能导致偏见的因素,其实可以通过明确的自然语言原则进行更直接、更有效的规避和缓解。当我们给它一个清晰的、强调准确性的原则时,RewardAnything能够更好地抵制表面线索的干扰,做出更符合任务本质的判断。
RABench:专为“原则遵循”设计的评估基准
传统的奖励模型基准大多关注模型在固定、隐含偏好下的表现,难以有效衡量模型适应和遵循用户明确给出的、多样化自然语言原则的能力。
为了全面评估奖励模型理解和遵循不同原则的能力,团队构建了RABench(Reward Anything Benchmark)评测基准,旨在通过引入判断原则,填补现有评测方法的空白。
评测设计
1.原则的多样性
团队从人工整理的200个原则中,专门挑选出50个与训练集原则完全不同的、具有多样性的原则用于基准测试。这些原则被归纳为五个与文本质量相关的基本维度:
内容 (Content): 规定模型应呈现哪些信息,例如“鼓励包含相关例证的详细回答”。
结构 (Structure): 定义文本的组织和布局方式,例如“重视信息组织清晰、条理分明的回答”。
语气 (Tone): 捕捉文本所传达的情感和态度,例如“对带有鼓励性和帮助性语气的回答给予更高分数”。
逻辑 (Logic): 关系到文本的推理过程和思路流程,例如“好的回答应展现连贯的思考过程”。
风格 (Style): 指明对语言表达方式的偏好,例如“偏好使用清晰、简洁、无专业术语的语言”。
2.真实场景覆盖
为了确保评估的挑战性和多样性,测试提示(prompts)主要来源于现有的RewardBench数据集,覆盖了日常对话、代码编程、数学推理、安全相关四大领域。
3.丰富的模型覆盖
候选回复生成:对于RABench中的每一个“原则-提示”对,团队使用了来自6个不同家族(如GPT, Claude, Qwen, LLaMA, DeepSeek等)的10种不同的大型语言模型来生成候选回复。每个模型都被指示(通过系统提示)尝试遵循给定的原则来生成回复。
多LLM初步评估与共识算法:团队利用了四个顶尖的LLM(如Claude-3.7 Sonnet, GPT-4.1等)作为独立的评估者,对所有候选回复进行评分和排序。然后,采用一种基于动态规划的共识算法来综合它们的评估结果,找到最受评委们一致认可的排序。
人工最终验证:最后,每一个由算法生成的共识判断(包含原则、提示、一组回复以及LLM共识得到的分数和排序)都由两名人类标注员进行独立验证,确保其准确反映了对特定原则的遵守情况。只有两名标注员都认为有效的条目才被保留。这一过程的标注员间一致率达到了89%。
最终,RABench包含1002个经过验证的偏好排序列表,由于每个列表包含多个回复,相当于传统成对比较基准中的约31,806个偏好对。
团队将RewardAnything与强大的通用LLM(它们本身也常被用作评估器)以及领先的判别式奖励模型进行了比较。结果显示,RewardAnything 在RABench上展示出了与GPT-4.1等顶尖模型相媲美的原则跟随能力。
这意味着RewardAnything能够很好地适应和应用在其训练阶段并未见过的、甚至是更为复杂的自然语言原则。
应用:简单语言描述,定制AI的行为模式
基准测试的优异表现固然令人鼓舞,但RewardAnything的真正价值在于其应用:它能让任何人通过简单的自然语言描述,就能定制AI的行为模式。
我们面临一个复杂的挑战:如何让AI既能准确识别并坚定拒绝有害的用户请求,又不会对本身安全无害或仅轻微触及边界的良性查询过度敏感地拒绝,同时还能在必要拒绝时保持温暖、富有同情心、甚至能给出积极替代方案的交流风格?
传统方法通常需要:收集数万条专门标注的偏好数据,细致区分“合理的拒绝”“过度的拒绝”“生硬的拒绝”和“温暖的拒绝”;聘请专业团队进行标注,确保对各种细微差别的一致理解;花费数周甚至数月时间训练或微调特定的奖励模型,反复调试和评估,以在安全性和实用性之间达到微妙的平衡。
使用RewardAnything,我们只需要一个精心设计的自然语言原则——这条原则是OOD的,与训练原则没有重叠,以及来自公开训练数据集PKU-RLHF的大约2000个prompt。重要的是,这些提示仅为输入文本,不包含任何人工标注的偏好数据或是来自其他模型的输出蒸馏,也无需为这项特定任务重新训练或定制RewardAnything模型本身。
团队将RewardAnything作为GRPO的唯一奖励,对Qwen3-8B进行了对齐训练。
作为对比,团队选择了在RM-Bench安全领域表现领先的Skywork RM作为基线奖励模型,在完全相同的GRPO设置和相同的2000个prompt下,对齐训练了另一个Qwen3-8B模型。
评估对齐效果主要使用了两个基准:XSTest(一个专门用于评估LLM在安全场景下是否过度拒绝的测试集)和MT-Bench(一个广泛使用的对话模型评估基准,这里用于通过GPT-4.1进行成对文本质量比较)。
实验结果清晰地展示了这种由原则驱动的对齐方法的有效性:
在安全行为上: 由RewardAnything对齐的模型(图中标注为“Ours-Aligned”)不仅在处理安全提示时,略微减少了不正确的拒绝率(相比原始Qwen3-8B和Skywork对齐的模型),更重要的是,在处理不安全提示方面表现出了显著的提升。具体来说,它在保持对不安全内容的高拒绝率的同时(Full Refusal比例仍然很高),将更多必要的拒绝转化为了更具建设性、富有同情心、并能提供替代方案的回复(Partial Refusal,即部分拒绝但提供了有益信息或引导的比例有所增加)。这充分展现了一种负责任的、更接近人类理想沟通方式的应对策略。
在文本质量上: 在MT-Bench上进行的文本质量比较(由GPT-4.1作为裁判)显示,“Ours-Aligned”模型生成的回复质量显著优于原始的Qwen3-8B模型以及由Skywork RM对齐的模型。这表明,这种基于原则的、旨在实现细致入微安全行为的对齐,同时也带来了模型整体回复质量的提升。
这项案例研究有力地证实,RewardAnything不仅仅是在基准测试中取得高分的理论模型,它更展示了一种LLM对齐的新范式。
它赋予了用户一种前所未有的能力——仅仅通过清晰的自然语言规范,就能灵活、直接地引导大型语言模型朝着复杂的、符合期望的行为方向演进。
这真正体现了“RewardAnything”(奖励任何事物)的愿景,并显著降低了创建高度定制化、深度对齐的AI系统的技术门槛和资源壁垒,对齐的重心从“数据驱动”转向了更灵活、更直接的“原则驱动”。
论文链接:
https://arxiv.org/abs/2506.03637
代码链接:
https://zhuohaoyu.github.io/RewardAnything
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
🌟 点亮星标 🌟
(文:量子位)