训练方法归档 - 每时AI

重磅开源！首个全异步强化学习训练系统来了，SOTA推理大模型RL训练提速2.77倍

上午8时 2025/06/05 作者机器之心

高门槛劝退？AReaL 全面升级，更快，更强，更好用！
来自清华大学交叉信息院和蚂蚁技术研究院的联合

清华姚班大牛，OpenAI姚顺雨：AI的下半场要像产品经理一样思考，RL算法取决于环境

下午4时 2025/04/19 作者 AI寒武纪

、o‑系列模型已经把“智能”从棋盘和试卷一路卷到代码、创作甚至电脑屏幕背后的每一次点击
清华姚班出