强化学习
X-R1: 不到50元,人人都能复现0.5B Aha Moment
X-R1是基于强化学习的训练框架,目标降低R1复现门槛。通过最少成本在0.5B预训练模型上实现了‘顿悟时刻’效果,使用了更易训练的方法,并优化了数据规模和checkpoint打印。
0.5B小模型逆袭!不到50元,「X-R1」让每个人都能复现Aha Moment
X-R1 是一个低成本且易入门的强化学习训练框架,旨在降低 R1 的复现门槛。通过使用0.5B预训练模型,在4张3090/4090显卡上仅需2小时就实现了 ‘aha Moment’,展示了极小模型也能触发Aha Moment的现象。
AI 终极十问!DeepSeek 如何颠覆开发者认知? | DeepSeek 十日谈
推理模型DeepSeek R1展示了其自我进化的能力和解决复杂问题的潜力。该模型采用纯强化学习技术,并结合监督微调提升推理能力。然而也有观点认为这更侧重于工程实践而非科学创新。
4500美元验证强化学习「魔力」,1.5B模型也能超越o1预览版,模型、数据、代码全开源
DeepScaleR-1.5B-Preview 成功复现 Deepseek-R1 的训练方法,成本仅需4500美元。该模型在AIME2024竞赛中超越了O1-Preview,展示了小模型通过强化学习也能实现飞跃的潜力。
通过简单的强化学习(RL)微调,得到了全新的DeepScaleR-1.5B-Preview
UC伯克利团队通过RL微调改进Deepseek-R1-Distilled-Qwen-1.5B,使其在AIME基准上Pass@1准确率高达43.1%,参数量仅为1.5B且超越OpenAI o1-preview。