GRPO框架归档 - 每时AI

爆火论文颠覆RL认知！「错误奖励」让LLM推理暴涨24.6%，学界惊了

2025年5月28日23时作者新智元

LM推理性能暴涨24.6%，一举颠覆传统的RL训练认知。
今早的一篇爆火论文，彻底颠覆了人们对「强化

2025年5月5日23时作者机器之心

AI模型训练中常见的两种策略——模仿学习和强化学习各有弊端。上海、西湖大学等团队提出LUFFY，结合两者优势，通过混合策略和策略塑形函数提升推理能力，实现即学即练的效果，已在GitHub开源。