一篇持续强化学习技术最新综述

强化学习（RL）是一种用于解决序列决策问题的重要机器学习范式，然而，RL依赖于大量的训练数据和计算资源，跨任务泛化能力方面的局限性。随着持续学习（CL）的兴起，持续强化学习（CRL）作为一种有前景的研究方向应运而生，旨在通过使智能体能够持续学习、适应新任务并保留先前获得的知识，来解决这些局限性。

文章对CRL进行了全面的考察，重点关注其核心概念、挑战和方法，提出了一种新的CRL方法分类体系，从知识存储和/或转移的角度将它们分为四种类型。

一、CRL总览

A. 定义（Definition）

CRL的定义：CRL是强化学习（RL）的扩展，强调智能体在动态、多任务环境中持续学习、适应和保留知识的能力。
与传统RL的区别：传统RL通常专注于单一任务，而CRL强调在任务序列中保持和提升泛化能力。
与多任务RL（MTRL）和迁移RL（TRL）的关系：

MTRL：同时处理多个任务，任务集固定且已知。
TRL：将知识从源任务迁移到目标任务，加速目标任务的学习。
CRL：任务通常按顺序到达，环境持续变化，目标是积累知识并快速适应新任务。

B. 挑战（Challenges）

CRL面临的主要挑战：在可塑性（plasticity）、稳定性（stability）和可扩展性（scalability）之间实现三角平衡。

稳定性：避免灾难性遗忘，保持对旧任务的性能。
可塑性：学习新任务的能力，以及利用先前知识提高新任务性能的能力。
可扩展性：在资源有限的情况下学习多个任务的能力。

C. 度量标准（Metrics）

传统RL的度量：通常使用累积奖励或成功率来衡量智能体的性能。
CRL的度量：

平均性能（Average Performance）：智能体在所有已学习任务上的整体性能。
遗忘（Forgetting）：智能体在后续训练后对旧任务性能的下降程度。
转移（Transfer）：智能体利用先前任务知识提高未来任务性能的能力，包括前向转移和后向转移。

D. 任务（Tasks）

导航任务：在二维状态空间中使用离散动作集，智能体探索未知环境以到达目标。
控制任务：涉及三维状态空间和离散动作集，智能体使用控制命令达到特定目标状态。
视频游戏：状态空间通常为图像，动作为离散，智能体执行复杂控制以实现目标。

E. 基准测试（Benchmarks）

CRL基准测试：如CRL Maze、Lifelong Hanabi、Continual World等，这些基准测试在任务数量、任务序列长度和观察类型等方面有所不同。

F. 场景设置（Scenario Settings）

CRL场景分类：

终身适应（Lifelong Adaptation）：智能体在任务序列上训练，仅在新任务上评估性能。
非平稳性学习（Non-Stationarity Learning）：任务在奖励函数或转移函数上有所不同，智能体在所有任务上评估性能。
任务增量学习（Task Incremental Learning）：任务在奖励和转移函数上显著不同，智能体在所有任务上评估性能。
任务无关学习（Task-Agnostic Learning）：智能体在没有任务标签或身份的情况下训练，需要推断任务变化。

二、CRL分类

系统地回顾了持续强化学习（CRL）领域的主要方法，并提出了一种新的分类体系，将CRL方法按照所存储和/或转移的知识类型分为四大类：基于策略的（Policy-focused）、基于经验的（Experience-focused）、基于动态的（Dynamic-focused）和基于奖励的（Reward-focused）方法。

A. 基于策略的方法

这是最主流的一类方法，强调对策略函数或价值函数的存储与复用，分为三个子类：

1）策略重用（Policy Reuse）

保留并重用先前任务的完整策略。
常见做法：使用旧策略初始化新策略（如MAXQINIT、ClonEx-SAC）。
高级方法：使用任务组合（如布尔代数）实现零样本泛化（如SOPGOL）。
可扩展性较差，但知识迁移能力强。

2）策略分解（Policy Decomposition）

将策略分解为共享组件和任务特定组件。
方法包括：

因子分解（如PG-ELLA、LPG-FTW）
多头网络（如OWL、DaCoRL）
模块化结构（如SANE、CompoNet）
层次化结构（如H-DRLN、HLifeRL、MPHRL）

优点：结构清晰、可扩展性强、适合复杂任务。

3）策略合并（Policy Merging）

将多个策略合并为一个模型，节省存储资源。
技术手段包括：

蒸馏（如P&C、DisCoRL）
超网络（如HN-PPO）
掩码（如MASKBLC）
正则化（如EWC、Online-EWC、TRAC）

优点：节省内存、适合资源受限场景。

B. 基于经验的方法

强调对历史经验的存储与复用，类似于经验回放机制，分为两类：

1）直接回放（Direct Replay）

使用经验缓冲区保存旧任务数据（如CLEAR、CoMPS、3RL）。
优点：简单有效，适合任务边界明确的场景。
缺点：内存消耗大，存在隐私风险。

2）生成回放（Generative Replay）

使用生成模型（如VAE、GAN）合成旧任务经验（如RePR、SLER、S-TRIGGER）。
优点：节省内存，适合任务边界模糊或资源受限场景。
缺点：生成质量影响性能。

C. 基于动态的方法（Dynamic-focused Methods）

通过建模环境动态（状态转移函数）来适应非平稳环境，分为两类：

1）直接建模（Direct Modeling）

显式学习环境转移函数（如MOLe、LLIRL、HyperCRL）。
优点：适合需要长期规划的任务。
缺点：建模复杂，计算开销大。

2）间接建模（Indirect Modeling）

使用潜变量或抽象表示推断环境变化（如LILAC、3RL、Continual-Dreamer）。
优点：更灵活，适合任务边界不明确或动态变化的环境。
常与内在奖励机制结合使用。

D. 基于奖励的方法（Reward-focused Methods）

通过修改或重塑奖励函数来促进知识迁移和探索，常见方法包括：

奖励塑形（Reward Shaping）：如SR-LLRL、基于时序逻辑的塑形方法。
内在奖励（Intrinsic Rewards）：如IML、Reactive Exploration，通过好奇心驱动探索。
逆强化学习（IRL）：如ELIRL，从专家演示中学习奖励函数。
大模型辅助奖励设计：如MT-Core，使用大语言模型生成任务相关的内在奖励。

https://arxiv.org/pdf/2506.21872A Survey of Continual Reinforcement Learning

（文：PaperAgent）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31