奖励函数设计归档 - 每时AI

深度强化学习的现状与挑战

上午8时 2025/02/17 作者 NLP工程化

深度强化学习在样本效率、奖励设计和稳定性等方面存在问题，未来可能通过更好的模型基础学习、迁移学习等方向解决。