GRPO归档 - 每时AI

QwenLong-L1：迈向具备长上下文推理能力的大型语言模型的强化学习方法

上午8时 2025/05/28 作者 NLP工程化

本文提出了一种强化学习框架QwenLong-L1，旨在提升大语言模型在长上下文中的泛化能力，并通过逐步扩展上下文长度、混合奖励函数等方法实现这一目标。

上午11时 2025/05/26 作者机器之心

微软副总裁 Nando de Freitas 却有自己的想法：他要在 X 上「开课」，发布一些关于人

上午8时 2025/05/15 作者 NLP工程化

Unsloth 发布了GRPO的新互动教程，用户可以轻松微调Qwen3-Base并开启其思考模式，实现几乎无监督学习。

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

上午11时 2025/05/03 作者新智元

reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasonin

上午11时 2025/05/01 作者机器之心

的新消息可没停下来。
前些天到处都在流传着 DeepSeek-R2 即将发布的传言，DeepSee

下午11时 2025/04/20 作者 NLP工程化

Sebastian Raschka 分享了关于强化学习推理现状的文章内容，包括理解推理模型、RLHF 基础知识、PPO 算法介绍及 GRPO 的应用等，并探讨了训练推理模型的经验和研究论文。

下午2时 2025/04/03 作者 Hugging Face

Ts 数据集
: 通过 R1 模型蒸馏生成近 10 万条高质量编程思维链样本，同时包含 C++ 和

下午11时 2025/03/25 作者极市干货

.zhihu.com/p/22128744640
编辑丨极市平台
极市导读
本文以通俗易懂的方式剖析