通过简单的强化学习(RL)微调,得到了全新的DeepScaleR-1.5B-Preview
UC伯克利团队通过RL微调改进Deepseek-R1-Distilled-Qwen-1.5B,使其在AIME基准上Pass@1准确率高达43.1%,参数量仅为1.5B且超越OpenAI o1-preview。
UC伯克利团队通过RL微调改进Deepseek-R1-Distilled-Qwen-1.5B,使其在AIME基准上Pass@1准确率高达43.1%,参数量仅为1.5B且超越OpenAI o1-preview。