R2前奏?DeepSeek联合清华新论文找到强化学习新方法:27B模型“干翻”671B 下午11时 2025/04/04 作者 AI寒武纪 DeepSeek与清华大学合作的研究提出了一种通用奖励模型GRM及其改进方法SPCT,通过增加推理计算量实现了有效的推理时扩展,并显著提升了LLM的性能。