强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法

在强化学习领域提出了一种名为’奖励聚中’的新思想,旨在通过从实际观察到的奖励中减去平均值来改进算法性能。该方法适用于几乎所有强化学习算法,并且当折扣因子接近1时效果最佳。