OpenAI没做到,DeepSeek搞定了!开源引爆推理革命 下午4时 2025/05/24 作者 新智元 名噪一时。而强化学习算法GRPO,是背后最大的功臣之一。然而,开源界对强化学习算法的探索并没有终结。
强化学习算法梳理:从 PPO 到 GRPO 再到 DAPO 下午2时 2025/05/05 作者 机器学习算法与自然语言处理 业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进