蚂蚁清华联手放大招!彻底开源RL框架AReaL-boba,人人可复现QwQ


责编 |梦依丹
出品丨AI 科技大本营(ID:rgznai100)

3 月的最后一天,由蚂蚁与清华大学交叉信息研究院吴翼老师团队联合推出的开源强化学习框架 AReaL 发布了里程碑版本——AReaL boba,正如其昵称“boba”(珍珠奶茶)所寓意的那样,AReaL 团队希望他们的工作能像美味且平易近人的奶茶一样,普惠整个 AI 开发社区,让每一位开发者都能轻松驾驭强大的推理模型。

就像 AReaL 介绍里说的那番,他们将完全致力于开源,发布所有重现所需性能模型的训练细节、数据和基础设施。AReaL boba 不仅把模型、代码、数据及实现细节通通开放出来,而且还提供非常详细的教程,真正实现了“人人可手搓顶尖大模型”的愿景。

集成 SGLang 框架,效率大幅提升! 

AReaL boba 是首个全面拥抱 xAI 公司高性能推理框架 SGLang 的开源训练系统。通过引入 SGLang 并进行一系列工程优化,AReaL v0.2 在 7B 模型上的训练速度相较于 v0.1 提升了 1.5 倍,端到端训练性能提升高达 73%。如下图所示:

官网提供的表格进一步展示了 AReaL-boba 在不同资源配置下的训练时间:

AReaL 团队通过大规模强化学习训练,使得 AReaL-boba-RL-7B 在数学推理能力上达到了同尺寸模型的 SOTA 水平。其在 AIME 2024 上取得了 61.9 分,在 AIME 2025 上取得了 48.3 分,不仅显著超越了基础模型,更是在多个基准测试中领先于同类开源模型。为了方便社区复现,团队还开源了相应的训练数据 AReaL-boba-106k。

AReaL-boba 团队通过监督微调,基于 R1-Distill-Qwen-32B,仅使用 200 条精选数据 (AReaL-boba-SFT-200) 就成功复现了 QwQ-32B 在 AIME 2024 上的惊人推理性能!
目前,AReaL 项目正处于积极开发阶段,并计划以每周一次的频率发布重大更新。未来,AReaL 的研发重点将包括系统与算法的优化,系统层面将引入基于编码问题的强化学习训练、异步生成与 RL 训练等。此外,该团队还将探索视觉-语言模型的强化学习、继续完善 32B 规模模型的强化学习训练方案,研发高效的多任务 RL 算法,并推动端到端 RL 训练的智能体能力,同时提升更大规模 MoE 模型的稳定训练能力。
有关 AReaL-boba-RL-7B 训练细节,大家可以前往官博查看详细介绍。
  • GitHub 项目地址:https://github.com/inclusionAI/AReaL
  • HuggingFace 数据模型地址:https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a
此外,令人期待的是,清华大学交叉信息研究院助理教授、AReaL 项目核心成员吴翼老师在即将举行的 2025 机器学习技术大会上,与开发者们深度剖析 AReaL 项目的技术精髓与实战经验,并着重解读 AReaL 系统如何应对强化学习的独特挑战。
与此同时,上文提及的 Light-R1-7B-DS 核心开发者、360 智脑算法资深专家邹昊晟将亲临大会,带来题为《开源推理模型的课程学习与 GRPO 数据心得和训练策略》的精彩分享。360 智脑于 3 月上旬开源了 Light-R1 多尺寸系列推理模型及训练数据与代码,在开源之初便实现了多项突破:首次在同类评测中零起点超越 DeepSeek-R1-Distill-32B,并首次在 14B 模型上实现了长推理 SFT 后 GRPO 强化学习的显著提升。全系列模型都曾亮相于周鸿祎的短视频之中。

(文:AI科技大本营)

欢迎分享

发表评论