太猛了!DeepSeek R1核心技术复现,30美元实现:小模型 RL Scaling 革命

来自加州伯克利大学的研究团队以极低的成本(低于30美元)成功复现了DeepSeek R1-Zero的关键技术,并在‘倒计时’游戏中展示了小型语言模型的强大自验证和搜索能力。