GRPO算法归档 - 每时AI

泛化性暴涨47%！首个意图检测奖励范式，AI工具爆炸时代意图识别新解法

下午4时 2025/05/16 作者机器之心

腾讯研究团队采用强化学习结合课程采样策略训练意图识别模型，显著提升其在未知意图上的泛化能力。该方法能有效指导模型关注更具挑战性的数据样本，并通过实验验证了GRPO算法优于传统SFT方法的性能优势。

等到了！VLM-R1完整细节首度公开：RL的一小步，视觉语言模型推理的一大步

下午4时 2025/04/25 作者 PaperWeekly

VLM-R1 是一个专注于视觉感知任务的强化学习模型，它通过引入格式奖励和准确率奖励机制，在Referring Expression Compression和Open-Vocabulary Object Detection两个任务上取得了显著优势。论文详细解释了其技术细节，并展示了在大规模模型中的泛化能力和潜力。

Deepresearch核心技术：如何通过强化学习增强推理大模型搜索规划及反馈能力？

下午2时 2025/04/05 作者老刘说NLP

复现和应用越来越多，也对大模型的规划能力有了越来越多的要求。
假设大模型能力很强，我们可以使用
Co

迁移DeepSeek-R1同款算法，小米让7B模型登顶音频理解推断MMAU榜单

上午11时 2025/03/17 作者量子位

小米大模型团队通过微调阿里Qwen2-Audio-7B模型，结合DeepSeek-R1的GRPO算法，在MMAU评测集上实现了64.5%的准确率，显著提升31%，接近人类专家水平。

32b R1-Zero复现，聚焦scaling

下午2时 2025/03/11 作者机器学习算法与自然语言处理

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

200多行代码，复旦大学超低成本复现DeepSeek R1「Aha Moment」！

下午4时 2025/02/19 作者 PaperWeekly

复旦大学知识工场实验室团队基于 GRPO 算法高效复现 R1-zero 自发反思能力，项目代码简洁、依赖简单，资源消耗低。

DeepSeekRL-Extended：从零实现DeepSeek R1的强化学习项目

上午8时 2025/02/18 作者 NLP工程化

从零实现DeepSeek R1的强化学习项目，探索GRPO算法的应用，仅用单个H100 GPU400步训练提升模型性能，完全自研且提供多脚本结构。

外媒扒出多位DeepSeek核心成员履历，中国AI人才回流势不可挡

下午11时 2025/02/10 作者智东西

多位DeepSeek人才拥有国内外复合背景，他们选择回国投身中国的AI产业而非留在美国公司工作。梁文锋的公司不鼓励内部竞争和加班，并给予员工极大的自由度。DeepSeek吸引人才的方式独特且成功，其研究成果受到关注并获得了广泛关注。