4500美元复刻DeepSeek神话,1.5B战胜o1-preview只用RL!训练细节全公开 下午4时 2025/02/11 作者 新智元 在刚刚,UC伯克利团队只用简单的RL微调,就训出了DeepScaleR-1.5B-Preview,1