Open R1放出220k高质量DeepSeek R1数据及处理技术细节，冲～

Open R1由huggingface出品，当前最火的DeepSeek-R1全开源复现，已经18.8k了，这两天该项目发布了最新进展：

开源了包含由 DeepSeek R1生成的用于数学推理的全新大规模数据集OpenR1 -220k-Math

合成数据处理技术细节
汇总开源社在R1技术上的探索：Unsloth、李飞飞s1、AIME 2025等等

社区已经发布了多个开放数据集，包括OpenThoughts-114k、Bespoke-Stratos-17k、Dolphin-R1和LIMO。

🐳 推出 OpenR1-Math-220k ，这是一个在 512 个 H100 上本地生成的大规模数学推理数据集，每个问题有多个答案。为了创建 OpenR1-Math-220k，与Numina合作，他们开发了其广受欢迎的NuminaMath-CoT数据集的全新版本。

与现有数据集相比，OpenR1 数据集有哪些新内容：

800k R1 推理轨迹：使用DeepSeek R1为 400k 个问题生成两个答案。过滤后的数据集包含220k 个具有正确推理轨迹的问题。
512 个 H100 在本地运行：不依赖 API，而是利用vLLM和SGLang在科学集群上本地运行生成，每天生成 180k 条推理痕迹。
基于NuminaMath 1.5：专注于数学推理痕迹并为 NuminaMath 1.5 （NuminaMath-CoT数据集的改进版本）中的问题生成答案。
自动过滤：应用数学验证来仅保留至少有一个正确答案的问题。还利用Llama3.3-70B-Instruct作为判断器来检索更多正确的示例（例如，对于无法使用基于规则的解析器验证的格式错误的答案的情况）
在数据集上微调Qwen-7B-Math-Instruct来匹配DeepSeek-Distill-Qwen-7B的性能。

数据生成

为了构建 OpenR1-220k，提示DeepSeek R1从 NuminaMath 1.5 生成 400k 个问题的解决方案。遵循模型卡的推荐参数，并在用户提示中添加以下指令：

"Please reason step by step, and put your final answer within \boxed{}."

设置了16k 个 token 的限制，只有 75% 的问题可以在 8k 个 token 以内解决，而其余大部分问题都需要完整的 16k 个 token。使用SGLang，能够每台 H100 每小时生成 25 个解决方案（速度几乎提高了 2 倍！），在 512 台 H100 上每天生成 300k 个问题解决方案。能够在短短几天内生成 800k 个推理轨迹。

为每个问题生成两个解决方案（在某些情况下为四个），以提供筛选和训练的灵活性。这种方法允许拒绝采样，类似于 DeepSeek R1 的方法，并且还使数据集适合 DPO 等偏好优化方法。

数据生成脚本：

https：//github.com/huggingface/open-r1/tree/main/slurm

数据过滤

为了仅保留高质量、正确的推理痕迹，利用Math Verify，这是一个强大的数学表达式评估系统，旨在评估 LLM 生成的答案。从模型生成中提取最终答案，并将其与数据集中的真实答案进行比较。

发现 55% 的问题至少有一个正确答案。但是，NuminaMath 1.5 中的一些基本事实答案是空的或不是可验证的格式，这使得自动验证具有挑战性。虽然改进了 Math-Verify 以更准确地处理这些不常见的输出格式，但还探索了一种从被拒绝的样本中恢复有效解决方案的替代方法：使用 Llama-3.3-70B-Instruct 作为被拒绝问题子集的判断者。在运行此验证步骤之前，会过滤掉不完整或包含空的基本事实答案的样本，确保只考虑格式正确且最终答案明确标注的响应。此过程成功检索了 28,000 个之前被拒绝的问题。

提示Llama3.3-70B-Instruct如下：

You are a mathematical answer validator. You will be provided with a mathematical problem and you need to compare the answer in the reference solution, and the final answer in a model's solution to determine if they are equivalent, even if formatted differently.
PROBLEM:
{problem}
REFERENCE SOLUTION:
{answer}
MODEL'S SOLUTION:
{generation}
Focus ONLY on comparing the final mathematical answer provided by the model while ignoring differences in:
- Formatting (e.g., \\boxed{{}} vs plain text)- Multiple choice formatting (e.g., "A" vs full solution)- Order of coordinate pairs or solutions- Equivalent mathematical expressions or notation variations- If the model's answer is nonsense, return "Verdict: AMBIGUOUS"
Start with a brief explanation of your comparison (2-3 sentences). Then output your final answer in one of the following formats:
- "Verdict: EQUIVALENT"- "Verdict: DIFFERENT"- "Verdict: AMBIGUOUS"

通过将基于规则的验证 (Math Verify) 与基于 LLM 的评估相结合，可以在保持规模的同时提高数据集质量。最终数据集包含 22 万个经过验证的推理轨迹问题，使其成为训练推理模型的宝贵资源。为每个问题提供多个解决方案使社区能够灵活地筛选出更好的代数，并根据 NuminaMath 数据源和问题类型应用更有针对性的改进。

该数据集分为两部分：

default（94k 个问题），在 SFT 之后取得了最佳性能。
extended（131k 个问题），其中包括额外的 NuminaMath 1.5 源，如cn_k12，提供更多推理痕迹。然而，SFT 之后此子集的性能低于默认拆分，可能是因为cn_k12与其他来源相比包含更简单的问题。

对于具有多个正确答案的行，还尝试应用奖励模型 (RM) 作为最终过滤器来选择最佳答案。对于 R1 生成多个正确答案的每一行，通过删除思考标记(<think>…</think>)来提取最终答案，然后将问题 + 提取的答案传递给使用 vLLM 提供的Qwen/Qwen2.5-Math-RM-72B以获得分数。使用这些分数，为包含多个正确答案的每一行建立了排名。选择了前 1 个正确的生成并将其纳入训练数据集，但遗憾的是，训练消融表明，与选择一个随机正确生成相比，这种方法无助于提高模型性能。一种可能的改进是在使用 RM 评分时包括推理轨迹而不仅仅是最终答案。

社区亮点

GRPO 的应用与效果

实验成果：nrehiew 将 GRPO 应用于 Qwen2.5-0.5B 基础模型，在 GSM8k 基准测试中获得了约 51% 的准确率，比未优化的模型提高了 10 个百分点。这表明 GRPO 在某些模型上具有显著的优化效果。
模型限制：尽管在 Qwen2.5-0.5B 上取得了成功，但在其他基础模型（如 Llama 3）上尚未复现类似效果。Sea AI Lab 的研究指出，基础模型的自我反思能力可能更多是其固有特性，而非 GRPO 优化的结果。
资源优化：Unsloth 团队通过优化，仅使用 15GB 的显存即可训练多达 150 亿参数的模型，这意味着 GRPO 可以在 Google Colab 等免费平台上使用，大大降低了实验门槛。

数据集与推理能力

小数据集的潜力：研究表明，复杂的推理能力可能不需要大规模数据训练，而是可以通过少量精心挑选的样本实现。例如：

s1K 数据集：包含 1000 个精心挑选的数学问题，微调后的 Qwen2.5-32B-Instruct 模型在竞赛数学基准上超越了 OpenAI 的 o1-preview 模型 27%。
LIMO 数据集：仅使用 817 个训练样本，在 AIME 和 MATH 基准上取得了出色表现。这表明高质量的小数据集可能比大规模数据更有效。

推理深度与性能：通过预算强制技术（如添加“等待”标记或结束标记）延长或截断模型的推理时间，可以显著提升模型在不同数学基准上的性能。

奖励函数与优化

奖励函数设计：Alexander Doria 提出了为诗歌生成设计奖励函数的方法，这是 GRPO 在非传统“可验证”领域应用的首批公开示例之一。
余弦奖励函数：Yeo 等人提出了一种新的奖励函数，通过激励正确生成的思维链（CoT）更短，错误生成的 CoT 更长，从而稳定强化学习训练，特别是在模型上下文大小有限的情况下。

评估与挑战

AIME 2025：作为新的数学难题基准，AIME 2025 的发布引发了对模型性能的评估。然而，部分问题已在互联网论坛上出现，这可能暗示了训练数据泄露的问题，凸显了为 LLM 创建新问题的困难。
推理方式：一项新研究通过在潜在空间中进行隐式推理，展示了在推理任务中扩展测试时间计算的可能性，这种方法比传统方法更高效。

https://huggingface.co/blog/open-r1/update-2https://github.com/huggingface/open-r1

（文：PaperAgent）

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

GRPO 的应用与效果

数据集与推理能力

奖励函数与优化

评估与挑战

发表评论 取消回复

发表评论取消回复