DeepSeek R2来了?全新推理时Scaling论文联手清华震撼发布! 2025年4月4日23时 作者 新智元 发布的研究中,他们发现了奖励模型推理时Scaling的全新方法。 DeepSeek R2,果然近了。