DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文 下午4时 2025/05/24 作者 机器之心 读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命 下午4时 2025/05/24 作者 新智元 名噪一时。而强化学习算法GRPO,是背后最大的功臣之一。然而,开源界对强化学习算法的探索并没有终结。