强化学习归档 - 第4页共41页

炸裂！MiniMax推出全球最长上下文推理模型M1：512张H800三周完成训练，成本仅54万美金

2025年6月17日11时作者 AI寒武纪

MiniMax举办开源周活动，正式发布最新推理模型MiniMax-M1，支持100万token输入与8万token输出，参数量达4560亿。通过大规模强化学习训练，仅耗资53.47万美元。该模型采用混合注意力架构和闪电注意力机制，显著提升推理效率，并在复杂任务中表现突出。

SFT+RL双管齐下：ReasonGen-R1如何破解文生图「指令不遵」难题？

2025年6月16日23时作者机器之心

近日提出的一种两阶段训练框架ReasonGen-R1结合监督微调与强化学习提升自回归图像生成模型的推理和创作能力。

MSRA清北推出强化预训练！取代传统自监督，14B模型媲美32B

2025年6月11日23时作者量子位

微软亚洲研究院联合清华大学、北京大学提出RPT预训练范式，将强化学习深度融入预训练阶段，通过生成思维链推理序列和使用前缀匹配奖励来提升模型预测准确度。

103K「硬核」题，让大模型突破数学推理瓶颈

2025年6月11日16时作者机器之心

本文介绍了一篇关于 DeepMath-103K 数据集的研究论文，该数据集旨在解决当前大语言模型在数学推理训练中的数据瓶颈问题。论文详细描述了其高难度、新颖性和纯净性的特点，并展示了在多个基准测试中的卓越性能。

视觉感知驱动的多模态推理：阿里通义提出VRAG-RL，定义下一代检索增强生成

2025年6月11日16时作者 PaperWeekly

VRAG-RL 是一种基于强化学习的视觉检索增强生成方法，通过引入多模态智能体训练，实现了视觉语言模型在检索、推理和理解复杂视觉信息方面的显著提升。

GraphRAG的优劣势及文档解析结合RL强化学习新思路Infinity Parser

2025年6月11日14时作者老刘说NLP

在2025年6月11日的文章中，探讨了《Infinity Parser》结合强化学习和文档解析数据集的构建，并介绍了《When to use GraphRAG: A Comprehensive Analysis for Graph Retrieval-Augmented Generation》，分析了GraphRAG在不同场景下的有效性。