为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need 下午4时 2025/03/24 作者 机器之心 设计 RLHF 的奖励模型时也是一样。 我们知道,一个 RLHF 算法是否成功的一大关键在于其奖励模