GRoPo 归档 - 每时AI

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

2025年5月24日16时作者机器之心

读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文

OpenAI没做到，DeepSeek搞定了！开源引爆推理革命

2025年5月24日16时作者新智元

名噪一时。而强化学习算法GRPO，是背后最大的功臣之一。然而，开源界对强化学习算法的探索并没有终结。