刚刚,DeepSeek-GRM模型发布,全新推理时Scaling,为R2打前站!

DeepSeek联合清华发布研究成果,提出DeepSeek-GRM模型通过点式生成奖励建模提高通用查询的性能,利用自我原则批评调整等方法实现推理时扩展。该模型在多个基准测试中表现出色,在推理时的性能随着采样数量增加而显著提升。