杨睿归档 - 每时AI

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

2025年3月31日16时作者量子位

中科大研究人员提出ROUSER方法，在信息瓶颈框架下学习鲁棒动作价值表征，显著提升视觉强化学习泛化性能。该方法在12个连续控制任务中表现出色，尤其适用于背景与颜色干扰的环境。