NeurIPS 2024|打破扩散模型与在线强化学习结合的瓶颈!引入Q变分训练的在线扩散强化学习算法 上午8时 2024/12/14 作者 极市干货 该工作提出了一种基于Q变分损失的扩散策略优化方法(QVPO),解决了扩散模型与在线强化学习结合的问题,提高了样本效率和最终表现。