4500美元复刻DeepSeek神话,1.5B战胜o1-preview只用RL!训练细节全公开 2025年2月11日16时 作者 新智元 在刚刚,UC伯克利团队只用简单的RL微调,就训出了DeepScaleR-1.5B-Preview,1