伯克利团队归档

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

2025年6月29日16时作者新智元

伯克利团队提出InFOM模型，通过流匹配和占据模型实现意图感知的未来状态预测，在强化学习预训练微调任务中表现优异。

2025年2月12日23时作者机器之心

DeepScaleR-1.5B-Preview 成功复现 Deepseek-R1 的训练方法，成本仅需4500美元。该模型在AIME2024竞赛中超越了O1-Preview，展示了小模型通过强化学习也能实现飞跃的潜力。