Reward Centering 归档

强化学习之父Richard Sutton给出一个简单思路，大幅增强所有RL算法

2024年11月28日23时作者 Datawhale

在强化学习领域提出了一种名为’奖励聚中’的新思想，旨在通过从实际观察到的奖励中减去平均值来改进算法性能。该方法适用于几乎所有强化学习算法，并且当折扣因子接近1时效果最佳。