让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA 下午4时 2025/06/05 作者 新智元 现全异步强化学习训练系统,有效解耦模型生成与训练流程,GPU利用率大幅提升。14B模型在多个代码基准