漫长时间退火归档 - 每时AI

Deepseek R1 Zero成功复现全过程：三阶段RL，Response长度涨幅超50%，涌现语言混杂

2025年2月10日23时作者极市干货

u.com/p/21290410831
编辑丨极市平台
极市导读
Deepseek R1 Zero模