改进完善归档 - 每时AI

揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

2025年3月22日16时作者机器之心

ek-V3-Base 在强化学习（RL）调优之前就已经展现出「顿悟时刻」？RL 调整中不断增加的输出