DeepSeek R2来了?全新推理时Scaling论文联手清华震撼发布! 下午11时 2025/04/04 作者 新智元 发布的研究中,他们发现了奖励模型推理时Scaling的全新方法。 DeepSeek R2,果然近了。