
在持续学习问题中,域增量学习(Domain-Incremental Learning, DIL)是一个重要的研究方向。它要求模型能够逐步适应不同领域的新概念,同时避免遗忘之前学到的知识。
然而,现有的预训练模型在适应新领域时,往往会遭遇“灾难性遗忘”问题,即新知识覆盖旧知识,导致模型性能下降。为了解决这一难题,研究者们提出了 DUCT 模型,通过双重巩固机制(dual consolidation),在表示空间和分类器层面统一并整合历史知识,取得了显著的效果。

论文标题:
Dual Consolidation for Pre-Trained Model-Based Domain-Incremental Learning
论文地址:
https://arxiv.org/abs/2410.00911
代码链接:
https://github.com/Estrella-fugaz/CVPR25-DUCT

引言
近年来,深度学习在现实世界中的应用展现了强大的潜力,从自动驾驶到人脸识别,AI 技术正在改变本文的生活。
然而,现实世界是动态且不断变化的,数据往往以流数据的形式持续更新,模型需要不断适应新的领域和数据分布。例如,在自动驾驶任务中,汽车需要应对不同季节和天气条件下的驾驶任务,而人脸识别系统则需要在各种光照条件下准确识别用户。
这种需求催生了域增量学习(Domain-Incremental Learning, DIL)的研究,但随之而来的是“灾难性遗忘”(Catastrophic Forgetting)问题这一增量学习领域的常见挑战。
为应对灾难性遗忘,近年来的研究多采用将强大的预训练模型(PTMs)作为持续学习的初始点这一做法——这是因为 PTMs 能够提供具有良好泛化性的特征表示空间。这些方法通常冻结预训练主干网络以保留已有知识,同时添加轻量级模块来学得新模式。
然而,由于后续任务的领域信息会不断覆盖这些附加模块,特征仍然会发生遗忘,从而导致分类器的预测出现偏差。这同样也为 DIL 任务带来了挑战,本文就将基于预训练模型 Vision Transformer(ViT)展开研究讨论。
具体来说,在域增量学习(DIL)任务中,数据分布会随着时间的推移而发生变化,而模型的目标就在于对新领域上的数据分布进行适应的同时,保留对旧有数据分布的辨别能力。
然而,传统的深度学习方法在学习新领域时,模型的嵌入空间(embedding)和分类器(classifier)往往会过度偏向最新领域的数据,导致对之前学到的知识产生遗忘。这种现象不仅会影响模型的性能,还可能在实际应用中带来严重的安全隐患。

图 1 中展示了域增量学习的学习过程,可以看到在每个新的任务阶段,模型都需要在来自新分布的数据上进行学习,这对模型在不同数据分布上的适应性能力提出了要求。
为了应对这一挑战,本文提出了 DUCT 模型,通过双重巩固机制(dual consolidation)来整合历史知识 —— 在表征空间上结合模型融合技术巩固历史知识,再利用类别语义信息来估计旧领域的分类器权重,从而使得旧分类器适应新的表征空间。

介绍
针对本文讨论的问题,本文首先给出问题和模型具体的形式化定义。
本文将模型的任务数据输入记作 ,其中单个任务构成为 ,且 满足 。这里, 在模型的整个学习过程中保持不变,而数据分布因任务而异,也即 。
另外,本文基于 exemplar-free 这一设定,也即在学习新任务时不保存历史任务的数据样本或特征。于是,本文可以将域增量学习的目标总结为下式(其中 为假设空间, 为指示函数):

再考虑本文选取的预训练模型 ViT,本文可以将其结构拆解为两部分来看:嵌入函数(embedding function) + 线性分类头 ,模型的输出即可表示为:。
本文采用 Cosine 分类头,分类器不包含偏置项,。在学习每个新任务时,本文参照之前的工作,仍然针对新任务拓展新的分类头,在测试阶段与旧有分类头拼接进行预测,并将 的结果作为模型输出。

DUCT
在域增量学习任务中,模型不仅面临特征层面的遗忘,还需应对分类器层面的覆盖问题。为此,本文从两个方面提出抗遗忘策略:1)通过对表征空间的巩固缓解特征级别的遗忘;2)对分类器进行校准以与嵌入空间相匹配。图 2 中给出了算法的示意图,下面本文将依次进行介绍。

▲ 图2. DUCT 算法示意图
3.1 表征空间的巩固
在域增量学习(DIL)中,模型需要平衡多个领域学得的知识,避免不断更新导致的特征覆盖和遗忘。为此,本文设计了新的特征更新策略,构建一个全能的嵌入空间,使其能够同时适应好所有领域的数据分布。
在理想情况下,本文可以为每个新领域单独训练一个模型,得到一组“领域专家(Domain Experts)”模型 。这些模型均基于相同的预训练模型进行优化,具备针对各自领域的最优判别能力。
如果本文能准确得知每个输入数据属于哪个领域,那么可以直接调用对应的专家进行预测。然而在 DIL 任务中,领域信息并不可用,这使得专家模型的直接应用变得不可行。
针对此,受到模型融合技术的启发,本文提出了一种方法,通过组合多个任务向量(Task Vectors) 来构建适用于多个领域的理想模型,学习强大的通用特征表示进行分类。
本文将预训练模型的表征空间权重记为 ,将嵌入函数在第 个域上的权重变化量定义为 ,于是可以简单地通过下式得到一个通用的表征空间:

尽管上式提供了一种直观上简洁的方法,但是该式缺少了对任务相关的考量。例如,在处理更为相似的任务时,可以采取相对更高的融合系数来强调这一部分的领域知识。因此,本文引入了任务相似性系数变量 。
衡量任务相似的一种直观做法是直接计算权重向量的相似度,但由于权重空间的超高维特性,各种度量方式的区分度下降,模型间的相似性计算将失去实际意义。
为了规避维度灾难问题,本文不直接比较 在参数空间中的相似性,而是借助任务特征来间接度量。在具体做法上,本文首先需要对每个类提取类中心:

由此本文可以得到在两个嵌入空间上的两组类中心,也即 。接着,本文基于类中心的分布,以一种 pairwise 的方式来计算任务相似度:

这里本文采用 cosine 相似度来衡量两组分布的距离。最后结合之前的公式本文得到了新的结合了任务相似度的表征空间融合公式:

3.2 分类空间的巩固
实际上,在上述的模型融合过程中,由于嵌入空间的变化,分类器与新表征之间可能会出现不匹配,因此还需要进行分类头的调整巩固。为了清晰的形式化表述,这里将旧分类头记作 ,将新分类头记作 。接着,本文需要分以下两个步骤完成对新旧分类器的校准融合。
新分类头的重训练
在完成对嵌入空间的融合后,还需要将新的分类器与巩固后的特征进行对齐,以减少特征空间更新带来的不匹配问题。这里将嵌入空间参数(也即 )冻结,仅针对分类头进行重训练,可以形式化表述为下式:

旧分类头的迁移
尽管前述做法可以使新分类器与更新后的嵌入空间对齐,但旧分类器仍然可能与新的嵌入空间不匹配,从而导致模型在旧任务上的性能的显著下降,即灾难性遗忘。
考虑到在 exemplar-free 的设定下,无法存储旧任务的训练样本,因此需要找到新的方法来调整旧分类器,使其适应新的嵌入空间。在本文中,本文基于最优传输理论(Optimal Transport, OT)设计了迁移方案以协调新旧分类头的参数空间。
这里使用 OT 传输理论的主要目标在于,构造传输矩阵 𝑇 来最小化新旧分类器参数分布之间的匹配成本,从而校准旧分类器,使其适应新的嵌入空间。
本文将新分类器上的类别概率分布记作 ,旧分类器对应 。要计算从 到 的最优传输矩阵,还需要定义一个类别之间传输的代价矩阵 。 的值越大,代表从第 个新类到第 个旧类的传输代价越高。形式化 OT 的优化目标如下:

考虑到 𝑇 实质上可以视作一个类别映射矩阵,结合前面已经提取过的类中心,本文采用在预训练嵌入空间中类中心间的欧式距离衡量类别相似性。也即,,以编码两个任务之间的特征相关性,从而校准旧分类器,使其适应新的嵌入空间。最后可以得到分类头的校准融合的公式如下:


实验
在实验部分,文章在 Office-Home, DomainNet, CORe50 和 CDDB-Hard 这四个数据集上进行了多个任务顺序的实验,并结合消融实验和参数稳健性分析,探讨不同模块的影响。此外,还通过可视化嵌入空间验证了所提出方法的有效性。
4.1 方法表现
图 3 中给出了在 ViT-B/16 IN1K 预训练权重下,不同方法的具体实验表现对比。

▲ 图3:DUCT实验结果对比
在下面的两张子图中分别给出了 CDDB 和 CORe50 两个数据集在 ViT-B/16 IN21K 模型上的表现。

考虑到以上结果均为在 5 个不同 domain 数据上的模型表现进行平均后所得,下图左子图给出了文中绘制的展现了 CORe50 数据集上不同学习顺序得到的模型表现的方差信息(图中阴影部分)的示意图。右子图则展示了在 CDDB 数据集上 Forgetting Measure 这一指标上的表现对比。


结合以上实验结果,本文可以得出以下结论:
1. DUCT 在最终的模型准确率(也即 )上始终比其他方法高出 1% ∼ 7%,在Forgetting Measure指标上同样展现出了最为良好的抗遗忘水平,表现稳定优越;
2. 与 L2P、DualPrompt、CODA-Prompt 等同样基于 PTM,但采用了提示学习的算法相比,基于全量微调的 DUCT 在覆盖了多种数据分布的 DIL 任务上的表现更好;与其他基于样本重放的方法(如 Replay、iCaRL 等)相比,尽管这些方法通过重放机制部分缓解遗忘,但它们大多为类别增量学习任务设计,目标函数(如扩展或蒸馏目标)可能不适用于当前任务场景;
3. DUCT 在不同的预训练权重(如 ViT-B/16 IN1K 和 IN21K)上相比其他方法,均能保持稳定提升,展示了良好的兼容性。
4.2 模块分析
针对嵌入空间融合模块,本文使用 t-SNE 可视化 DUCT 在数据量最大的 DomainNet 数据集上的嵌入空间,以展示其在 DIL 场景中的有效性。
实验时随机取了 5 个类别(图中用五个颜色进行了区分),用圆点表示第一个 domain 的样本,用三角形表示第二个 domain 的样本。下图中,左子图展示了模型融合前的样本类别分布,右子图展示了融合后的分布情况。


可以看到,经过 DUCT 训练后,不同类别间特征分布混叠的现象明显得到缓解,分类边界更合理,展现出了模型融合技术的有效性。
针对其余的方法模块,文章在 CDDB 数据集上进行了更细致的消融实验,以探讨 DUCT 各模块的重要性。如下表中所示,其中对比了多种方法变体的表现:
-
Baseline 表示直接冻结嵌入并提取类别中心作为分类器,得到的模型表现。由于预训练模型与下游任务存在域间差距(domain gap),该方法表现较差。
-
Variation 1 对应了采取均匀的任务向量融合策略下的模型表现(不考虑任务间相似度信息),可以发现引入表征空间的整合过程后,模型性能大幅提升,这验证了在 DIL 任务中采用统一的表征空间这一做法的优越性。
-
Variation 2 对应了对嵌入空间采取考虑任务间相似度的巩固措施后,模型性能得到进一步提高。这表明任务相似性有助于获得通用嵌入空间,中的分类器重训练过程,形成 Variation 3。
-
Variation 3 在 Variation 2 的基础上,对分类器做重训练后的模型表现(不进行后续的校正环节)。相比于 Variation 2 的表现可以得出结论,融合后的特征与原任务分类器之间的不匹配会削弱性能,而对分类器进行对齐有助于提升 DIL 任务的表现。
最后,将 DUCT 与 Variation 3 进行比较后发现,旧分类器的迁移对恢复先前知识并防止遗忘至关重要,使最终准确率提高了 2%。消融实验结果充分验证了 DUCT 各模块的有效性。


最后,论文中还针对模型超参数的鲁棒性进行了实验 —— 这主要包含任务向量的融合常数系数 和分类头的融合系数 。
实验从 中进行选择,共计形成 25 种参数组合,并在 Office-Home 数据集上计算这些参数组合的平均性能。从图中可以看出,DUCT 对参数变化通常具有较强的鲁棒性。
此外,由于合并参数旨在平衡旧知识和新知识之间的权重,本文发现无论是较小的值(如 0.1)还是较大的值(如 1.0)表现都较差。实验时主要考虑采取建议值 。

结论
本文提出了 DUCT 方法来处理域增量学习问题,并采用大量实验验证了 DUCT 的有效性。
在方法层面,由于 DIL 中的遗忘发生在两个方面,即特征表示和分类器,文章中分别设计了相应的整合技术来处理这两个问题。具体来说,DUCT 通过考虑将预训练模型与特定领域的任务向量持续合并,以实现统一的嵌入;为了弥补整合特征与分类器之间的不匹配,又设计了基于语义引导的传输方案以进行分类器整合过程。
未来的工作可能包括将 DUCT 方法扩展到非 PTM 场景,以进一步提高其适应性。同时,希望这篇工作能够激发未来在 DIL 领域有更多的研究进展。
(文:PaperWeekly)