MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

来源 | 深度学习自然语言处理

100天前，DeepSeek团队发布了「推理大模型」DeepSeek-R1。这个模型不仅能回答问题，还能像人类一样一步步「写草稿」「验算」「纠错」，比如解数学题时先列公式再计算，写代码时边写边检查。这种「显式推理」能力让它迅速成为AI圈的焦点。

论文：100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models
链接：https://arxiv.org/pdf/2505.00551

但DeepSeek-R1的技术细节并未完全开源，于是全球研究团队开启了「复现竞赛」——用公开数据和算法，尝试复刻它的能力。这篇论文就像一份「复现攻略」，总结了100天来的经验，还画出了未来的技术地图。

推理大模型的本质是「让AI学会思考」，而不仅是「背诵答案」。

概念：推理大模型 VS 普通大模型

普通大模型（比如ChatGPT）像「速记员」：你问它问题，它直接输出答案，但中间过程是「黑箱」。而推理大模型更像「学霸」：解题时会展示完整的思考步骤，比如：

这种能力对数学、编程、逻辑题尤其重要。比如解方程时，模型可能会先写「设未知数为x」，再列出方程，最后验算答案是否正确。

复现研究的两大方法

监督微调的核心是让模型学习高质量「解题范例」。比如：

冷知识：数据质量比数量更重要！某些团队发现，加入「非推理类数据」（比如写作、角色扮演）能提升模型通用性。

如果说SFT是「背答案」，RLVR就是「模拟考试」：模型生成多个答案，根据得分（奖励）调整策略。关键设计包括：

公式亮点：GRPO算法的核心是「组内奖励标准化」，避免模型被极端分数带偏：

（即把同一问题的多个答案奖励，减去平均值再除以标准差，让模型关注相对优劣）

反直觉结论：加入KL散度约束（防止模型偏离初始状态）反而可能限制性能！

最后论文甚至提到用RL训练模型「写诗」和「设计排序算法」，AI的创造力边界正在拓宽！

（文：机器学习算法与自然语言处理）