在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电 下午11时 2025/04/01 作者 机器之心 对策略优化)。 不同于 PPO(近端策略优化),GRPO 是直接根据组分数估计基线,因此消除了对 c
计算机系统类电子书《Dive Into Systems》 上午8时 2025/03/20 作者 NLP工程化 一本免费在线教科书,旨在帮助具有计算机科学入门知识的学生理解计算机系统概念和架构,涵盖C编程、计算机架构等主题。