中科大提出动作价值表征学习新方法,率先填补长期决策信息的缺失

中科大研究人员提出ROUSER方法,在信息瓶颈框架下学习鲁棒动作价值表征,显著提升视觉强化学习泛化性能。该方法在12个连续控制任务中表现出色,尤其适用于背景与颜色干扰的环境。