强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍 下午4时 2025/03/22 作者 机器之心 普林斯顿大学和华沙理工的研究表明,将对比 RL 扩展到1000层可以显著提高自监督强化学习的性能,在各种机器人任务中可实现50倍以上的提升。