负奖励归档 - 每时AI

更长思维并不等于更强推理性能，强化学习可以很简洁

下午4时 2025/04/14 作者机器之心

a 发布了一条推文，解读了一篇来自 Wand AI 的强化学习研究，其中分析了推理模型生成较长响应的