强化学习归档 - 第17页共28页

赶紧放弃强化学习？！Meta 首席 AI 科学家杨立昆喊话：当前推理方式会“作弊”，卷大模型没有意义！

下午4时 2025/02/15 作者 AI前线

这样的困境：它们基于深度学习架构，通过在大规模数据上进行预训练、调整参数，看似构建起了对世界的“理解

上午8时 2025/02/15 作者 NLP工程化

GSM8K-RLVR利用强化学习提升语言模型数学解题能力，Qwen2.5-Math-1.5B模型准确率从70.66%提升至77.33%，简化提示格式无需复杂标签。

下午2时 2025/02/14 作者 Hugging Face

奖励模型通过学习人工标注的成对 prompt 数据来预测分数，用于评估语言模型的表现。它们比传统LLM评估模型更快速且具有确定性，但需要特定微调和考虑位置偏差影响。

下午12时 2025/02/14 作者机器之心

在大家纷纷将目光投向智能体的同时，另一个 AI 领域也可能迎来它的「ChatGPT 时刻」。
这个春

下午12时 2025/02/13 作者硅星人Pro

出色，但“幻觉”问题依然是它面临的一大挑战。
在Vectara HHEM人工智能幻觉测试（行业权威测

下午12时 2025/02/13 作者 PaperWeekly

X-R1 是一个低成本且易入门的强化学习训练框架，旨在降低 R1 的复现门槛。通过使用0.5B预训练模型，在4张3090/4090显卡上仅需2小时就实现了 ‘aha Moment’，展示了极小模型也能触发Aha Moment的现象。

下午11时 2025/02/12 作者量子位

分拿下！
刚刚，OpenAI发布了
关于推理模型在竞技编程中应用的研究论文报告
，论文中放出了Ope

下午11时 2025/02/12 作者机器之心

DeepScaleR-1.5B-Preview 成功复现 Deepseek-R1 的训练方法，成本仅需4500美元。该模型在AIME2024竞赛中超越了O1-Preview，展示了小模型通过强化学习也能实现飞跃的潜力。