200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba 上午11时 2025/03/31 作者 机器之心 蚂蚁技术研究院和清华大学交叉信息院联合发布训练速度最快最稳定的开源强化学习训练框架AReaL,显著提升了数学推理能力,并通过创新性数据蒸馏技术复现了32B模型训练。