让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA 2025年6月5日16时 作者 新智元 现全异步强化学习训练系统,有效解耦模型生成与训练流程,GPU利用率大幅提升。14B模型在多个代码基准