QVPO算法归档 - 每时AI

NeurIPS 2024｜打破扩散模型与在线强化学习结合的瓶颈！引入Q变分训练的在线扩散强化学习算法

上午8时 2024/12/14 作者极市干货

该工作提出了一种基于Q变分损失的扩散策略优化方法(QVPO)，解决了扩散模型与在线强化学习结合的问题，提高了样本效率和最终表现。