43.1% 归档 - 每时AI

4500美元验证强化学习「魔力」，1.5B模型也能超越o1预览版，模型、数据、代码全开源

2025年2月12日23时作者机器之心

DeepScaleR-1.5B-Preview 成功复现 Deepseek-R1 的训练方法，成本仅需4500美元。该模型在AIME2024竞赛中超越了O1-Preview，展示了小模型通过强化学习也能实现飞跃的潜力。

2025年2月12日8时作者 NLP工程化

UC伯克利团队通过RL微调改进Deepseek-R1-Distilled-Qwen-1.5B，使其在AIME基准上Pass@1准确率高达43.1%，参数量仅为1.5B且超越OpenAI o1-preview。