中山大学计算机学院归档

ICML 2025 细粒度奖励建模：判别式策略优化下的Q-RM方法

2025年6月24日23时作者 PaperWeekly

近日，中山大学计算机学院与腾讯微信搜索团队联合提出 Q-RM（Q-function Reward Model），在 ICML 2025 正式发表。这一方法专注于构建更精确的 token-level 奖励信号，显著提升了大语言模型的训练效率和效果。