逐点生成式奖励建模归档 - 每时AI

R2前奏？DeepSeek联合清华新论文找到强化学习新方法：27B模型“干翻”671B

2025年4月4日23时作者 AI寒武纪

DeepSeek与清华大学合作的研究提出了一种通用奖励模型GRM及其改进方法SPCT，通过增加推理计算量实现了有效的推理时扩展，并显著提升了LLM的性能。