策略梯度归档

OpenAI没做到，DeepSeek搞定了！开源引爆推理革命

下午4时 2025/05/24 作者新智元

名噪一时。而强化学习算法GRPO，是背后最大的功臣之一。然而，开源界对强化学习算法的探索并没有终结。

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

上午8时 2025/03/06 作者新智元

Andrew Barto，获得了2024年图灵奖。有人说，图灵奖终于颁给了强化学习，这是迟到的「奖励

下午4时 2025/01/27 作者新智元

新智元报道
编辑：KingHZ
【新智元导读】
2028年，预计高质量数据将要耗尽，数据Scalin