NeurIPS 2024|少样本学习中类别原型和图片样本之间的信息差异对于泛化性能的影响

↑ 点击蓝字 关注极市平台
作者丨周展科
来源丨HKBU计算机系
编辑丨极市平台

极市导读

 

本文提出了CoPA方法,通过为类别原型和数据样本使用不同的特征变换模块,并结合对称交叉熵损失函数,来保留并扩大它们之间的信息差异,从而提高跨域少样本分类任务的泛化性能。实验结果表明,CoPA在多个数据集上实现了优于现有方法的性能。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

在跨域少样本分类任务(cross-domain few-shot classification, CFC)中,一种主流的架构是预训练一个骨干网络作为特征提取器,在测试阶段在骨干网络的末端快速微调一个简单的轻量化特征变换模块。该特征变换模块能够将提取到的嵌入特征映射到一个任务特定的度量空间,在该空间中,通过比较数据样本 (图片) 特征与类别原型 (prototype) 特征之间的距离/相似度来对样本进行分类。

在当前的URL (Universal Representation Learning) 框架中,一个隐性的假设是对数据样本与类别原型的嵌入特征使用同一个特征变换模块。然而,在本文中,我们发现数据样本与类别原型中存在信息差异,而使用共同的特征变换模块会缩小样本与类别原型中间的信息差异从而导致学习到的特征聚类效果不佳,进而影响算法的泛化性能。

基于此发现,我们在本文中对信息差异的性质进行了详细的研究,并针对这一现象提出了简单有效的方法Contrastive Prototype-image Adaptation(CoPA) 。通过对数据样本与类别原型的嵌入特征分别使用不同的特征变换模块以及使用对称交叉熵(symmetric cross-entropy) 作为损失函数,我们能够将数据样本与类别原型之间的信息差异保留并扩大,并且在扩大的信息差异处获得更好的泛化性能。

论文标题:Mind the Gap Between Prototypes and Images in Cross-domain Finetuning

论文链接:https://arxiv.org/abs/2410.12474

一、背景与动机

跨域少样本分类任务的主要目的是通过对少量带标签的样本进行快速学习从而能够在从未见过的数据样本上实现分类。作为传统少样本学习的一个分支,跨域小样本学习以其不规则的任务结构以及复杂的数据分布成为该领域更具挑战性的任务之一。目前主流的框架是一种基于“预训练+末端微调”的策略(典型代表为URL,如图1所示)。

图1: URL框架示意图

具体而言,在预训练阶段,一个(或若干个)骨干网络会通过传统的监督学习被预训练出来;而在测试阶段,骨干网络的参数会被“冻结”以作为特征提取器,并在末端快速微调一个特征变换模块将提取出来的嵌入特征映射到任务特定空间进行分类。具体而言,在任务特定空间,类别原型通过对类内所有的样本做平均获得。通过比较样本与所有类别原型的相似度/距离,数据样本会被分配到最相似/距离最近的类别中。

然而,该框架中包含了一个隐性的假设(如图2所示):

图2: 隐性假设示意图

样本级别的嵌入特征和类别原型级别的嵌入特征共享了同一个特征变换。具体而言,当特征变换为线性变换时,类别原型特征(representation)的计算过程(类内所有样本的平均)等价于对类别原型的嵌入特征(embedding)做线性变换。因此,该过程中数据样本的嵌入特征和类别原型的嵌入特征共享了同一个特征变换。直觉上而言,样本级别的嵌入特征(如图片样本)描述了单个图片中的特征信息,而类别原型级别的嵌入特征则包含了某一类中所有样本的共性特征信息(类别原型一般由类别内所有样本的平均得到,见图2)。因此,两者之前存在某种信息差异。基于这一观测,我们猜测对于两类数据使用同一个特征变换函数可能会潜在地对信息差异造成负面影响。

二、理论与实验分析

基于上述观测,我们首先对提到的信息差异进行了实验验证(如图3所示)。我们对类别原型和数据样本之间的分布做了可视化分析。通过图3 (a),我们可以观测到类别原型和数据样本在空间分布上确实存在差异,该差异可以通过欧式距离被量化为0.22。而当共享了同一个特征变换后,该差异被“破坏”。数值上,该差异缩小为0.12(图3 (b))。

图3: 类别原型和数据样本之间信息差异的可视化分析结果。

论文中额外的实验表明,这一现象广泛得存在于所有数据集中。与此同时,我们发现,对类别原型和数据样本使用同一个特征变换并不能学习到令人满意的特征聚类结果(如图4 (b-c)所示)。

图4: 分布差异与泛化性能的分析以及使用共享特征变换前后特征的聚类可视化结果

进一步的,通过对类别原型和数据样本嵌入特征之间的分布差异进行手动的“调整”,例如增大、减小、互换位置,我们可以观测到上述信息差异倾向于在较大的差异下获得更好的泛化性能(如最小验证损失,如图4 (a)所示)。

我们猜测出现这一现象的主要原因包括两方面:

  1. 信息差异的增大有利于缓解潜在的过拟合问题
  2. 信息差异的增大有利于对齐特征,从而获得更好的表现

此外,我们也对URL框架和以及其对信息差异的影响进行了理论分析。一方面,现有框架中所采用的损失函数存在一个下界(图5)。

图5: URL框架中损失函数的分析

倘若以该下界作为替代损失,最小化该损失等价于最大化样本与其对应的类别原型之间的相似度同时最小化样本与样本之间的相似度。在该损失框架下,文中分别对类别原型和数据样本的特征变换的梯度进行了进一步分析。分析表明,类别原型和数据样本变换的梯度信息其实是不同的(如图6所示)。但是在使用同一个特征变换的条件下,这一梯度差异会被抹除

图6: 针对类别原型和数据样本特征变换的梯度分析

另一方面,我们对信息差异也进行了理论分析(图7)。

图7: 关于信息差异的理论分析结果

我们发现该信息差异的上下边界的系数与(1)特征变换矩阵的列向量和嵌入特征信息差异相似度的最大/小值;(2)特征变换矩阵的Frobenius范数紧密相关。通过设计实验追踪上界系数的变化,我们发现该系数始终小于1.0(如图8所示)。

图8: 信息差异上界系数分析实验

这意味着,使用相同的特征变换后,类别原型和数据样本之间的信息差异必然缩小。

三、方法

针对上述观测和分析结果,我们针对性的提出了一种简单有效的框架:Contrastive Prototype-image Adaptation(CoPA,如图9所示)。

图9: CoPA框架示意图

这一框架主要包括两方面 :

  • 一方面,我们分别对类别原型和数据样本采用不同的特征变换模块。通过使用不同的变换模块,梯度信息可以被分别存放在不同的参数集合中,从而保留各自的梯度信息
  • 另一方面,CoPA框架采用了CLIP中使用的对称交叉熵损失。为了匹配该损失,类别原型需要借助已有标签扩展至和数据样本一致的维度。这一操作隐性地表达了该任务下数据样本聚类的结构信息

四、主要实验结果

我们将本文提出的CoPA框架在Meta-Dataset数据集上进行了评估。实验主要关注图片分类任务。表1-2展示了我们的CoPA能够在不同的任务类型(“train on all datasets”、“train on ImageNet only”)和模型类型(CoPA、CoPA+TSA)设定下都取得最优的效果。

表1: CoPA、CoPA+TSA在 “train on all datasets” 任务下在Meta-Dataset上的表现
表2: CoPA、CoPA+TSA在“train on ImageNet only”任务下在Meta-Dataset上的表现

此外,在CoPA框架下,我们发现类别原型和数据样本特征之间的信息差异被扩大(图10 (a))且得到了更好的聚类结果(图10 (b))。与此同时,我们发现验证损失在当前增大了的信息差异下达到了最小值(图10 (c))。这一现象说明CoPA有效地改善了泛化性能。

图10: CoPA框架下针对信息差异、特征聚类的定性分析

五、总结与展望

在本文中,我们发现当前跨域少样本学习框架中隐性地假设类别原型和数据样本应当使用同一个特征变换模块。通过理论与实验分析,我们发现这一假设会对特征的学习和算法的泛化性能造成负面影响。基于这些观测,我们提出了一种简单有效的方法Contrastive Prototype-image Adaptation (CoPA)。CoPA通过对类别原型和数据样本施加不同的特征变换并同时采用对称交叉熵损失有效地弥补了原有框架中的缺陷。大量实验表明,CoPA能够有效地保留类别原型和数据样本之间的信息差异,并获得更好的泛化性能。这为之后少样本学习算法设计提供了全新的视角。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

(文:极市干货)

欢迎分享

发表评论