强化学习归档 - 第14页共26页

从Policy Gradient到REINFORCE++，万字长文梳理强化学习最新进展

下午11时 2025/02/17 作者 PaperWeekly

中，有几个关键元素至关重要：首先是奖励模型和价值函数，它们用于评估每个动作或策略的优劣，从而决定模型

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

下午12时 2025/02/16 作者量子位

上海AI Lab提出的新方法OREAL利用基于结果奖励的强化学习超越了DeepSeek，无需超大规模模型蒸馏。通过模仿正样本、偏好负样本并关注关键步骤，实现了数学推理任务上的显著提升，并开源训练数据和模型以促进研究对比。

下午12时 2025/02/16 作者机器之心

本周通讯解读了三个值得关注的技术与行业动态。DeepSeek-R1 在强化学习中采用GRPO替代PPO，减少人类标注数据并设计精妙奖励机制；ARK展望AI对经济的影响；Kimi 1.5和DeepSeek-R1均使用Rule-based Reward提升模型推理能力。

上午8时 2025/02/16 作者 NLP工程化

COMPSCI 687强化学习讲义由马萨诸塞大学阿默斯特分校教授编写，介绍RL基础知识和概念

上午8时 2025/02/16 作者 NLP工程化

文章介绍了LLMs从预训练到微调的全过程，并涉及数据收集、分词、神经网络工作原理、推理过程、模型优化及性能提升方法。

下午4时 2025/02/15 作者 AI前线

这样的困境：它们基于深度学习架构，通过在大规模数据上进行预训练、调整参数，看似构建起了对世界的“理解

上午8时 2025/02/15 作者 NLP工程化

GSM8K-RLVR利用强化学习提升语言模型数学解题能力，Qwen2.5-Math-1.5B模型准确率从70.66%提升至77.33%，简化提示格式无需复杂标签。

下午2时 2025/02/14 作者 Hugging Face

奖励模型通过学习人工标注的成对 prompt 数据来预测分数，用于评估语言模型的表现。它们比传统LLM评估模型更快速且具有确定性，但需要特定微调和考虑位置偏差影响。