华人研究团队揭秘：DeepSeek-R1-Zero或许并不存在「顿悟时刻」

选自oatllm.notion.site

机器之心编译

编译：杜伟、蛋酱

自我反思（尤其是肤浅的）有时对模型性能的助益不大。

在过去这半个月里，关于 DeepSeek 的一切都会迅速成为焦点。

一项非常鼓舞人心的发现是：DeepSeek-R1-Zero 通过纯强化学习（RL）实现了「顿悟」。在那个瞬间，模型学会了自我反思等涌现技能，帮助它进行上下文搜索，从而解决复杂的推理问题。

在 R1-Zero 发布后的短短几天内，连续几个项目都在较小规模（如 1B 到 7B）上独立「复制」了类似 R1-Zero 的训练，并且都观察到了「顿悟时刻」，这种时刻通常伴随着响应长度的增加。

（文：机器之心）