样本效率归档

OpenAI没做到，DeepSeek搞定了！开源引爆推理革命

下午4时 2025/05/24 作者新智元

名噪一时。而强化学习算法GRPO，是背后最大的功臣之一。然而，开源界对强化学习算法的探索并没有终结。

下午4时 2025/05/10 作者新智元

调的价值，深度解释了AI训练「两阶段强化学习」的原因。某种意义上，他们的论文说明RL微调就是统计。

下午4时 2025/04/26 作者新智元

奖励强化学习（RLVR）的认知。RLVR被认为是打造自我进化大模型的关键，但实验表明，它可能只是提高

上午8时 2025/02/17 作者 NLP工程化

深度强化学习在样本效率、奖励设计和稳定性等方面存在问题，未来可能通过更好的模型基础学习、迁移学习等方向解决。