奖励塑形归档 - 每时AI

被《经验时代》刷屏之后，剑桥博士长文讲述RL破局之路

下午4时 2025/04/24 作者机器之心

归来的姿态在 LLM 的后训练时代证明了其巨大价值，Sutton 和 Barto 拿了图灵奖，Dav