NeurIPS 2024 基于视觉-语言预训练模型的提示词微调理论分析框架

简介

本文介绍了上海科技大学 YesAI Lab 在 NeurIPS 2024 发表的工作——《Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method》。


该研究针对大型视觉-语言模型(如 CLIP)在联邦学习(FL)场景中的提示词微调,构建了理论分析框架。通过引入特征动力学理论,研究者设计了一个理论分析框架,并提出了 PromptFolio(提示词组合)机制,一个在联邦场景中平衡全局与个性化提示词的新方法。


PromptFolio 通过融合本地和全局提示词,既保留了任务相关特征又抑制了任务无关特征。通过严格的理论分析与实验验证,该研究展示了该方法在实际场景中的高效性。


该工作上海科技大学 2023 级博士生潘比康为第一作者,由石野教授和黄伟博士指导完成。


论文标题:
Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method

论文地址:

https://arxiv.org/pdf/2409.19610

代码地址:

https://github.com/PanBikang/PromptFolio

研究背景

随着视觉-语言基石模型(VLMs)(如 CLIP)的发展,其在联邦学习中的应用变得日益重要。提示词微调因其通信开销小和计算资源需求低,在联邦学习中得到广泛关注。然而,该方法仍面临两大难题:


  1. 理论空白:当前缺乏统一的框架来解释提示词在联邦学习场景下的机制和优化策略。

  2. 数据异构性:联邦学习中的用户数据分布往往存在高度差异,如何同时满足个性化学习和全局泛化的需求?

为了解决这些问题,作者基于特征学习理论开发了一种理论框架,并从投资组合优化的视角设计了 PromptFolio 算法,实现了全局与本地提示词的高效结合。



理论框架:从特征学习到提示词组合

为了解决这些问题,研究者基于特征学习理论(Feature Learning Theory)提出了一个全新的理论框架,并从投资组合优化的视角设计了 PromptFolio 算法,实现了全局与局部提示词的高效融合。



核心问题:提示词的优化目标是什么?如何衡量提示词的效果?

研究者从特征学习理论出发,将提示词的优化过程分解为信号学习(任务相关特征)噪声记忆(任务无关特征)的动态平衡。他们提出,提示词的效果可以通过任务相关系数与任务无关系数的比值(signal-to-noise ratio, SNR)来评估。

1. 特征分解与学习动态
在理论中,特征被分为两部分:
  • 任务相关特征:反映模型对任务本质的理解,如分类中的关键信息。

  • 任务无关特征:背景噪声或无关信息,会干扰模型的泛化能力。

研究者推导出,提示词在学习过程中,其系数(coefficients)可以通过以下动态方程描述:

此外,文章中通过测试损失(test loss)的期望值来度量提示词的有效性,具体来说,测试损失可以表示为由任务相关和任务无关特征的系数控制的随机变量。

最终模型性能通过任务相关和任务无关特征系数的比值进行评价,这一比值越高,模型性能越优。

2. 投资组合视角的提示词混合

投资组合优化是一种经典的金融理论,旨在通过权衡收益和风险,找到最优的资产分配策略。启发于前面所述的性能评价方式,我们将任务相关系数看作投资组合的“收益”,任务无关系数看作投资组合的“风险”,我们提出了 PromptFolio 机制。


PromptFolio 机制将全局提示词和本地提示词视为两种投资组合资产,并将其组合问题建模为投资组合优化问题。通过结合全局提示词(泛化能力)和本地提示词(个性化能力),PromptFolio 能够最大化任务相关特征的比例,同时抑制任务无关特征的干扰。


  • 全局提示词:提供泛化能力,适应全局数据分布。

  • 本地提示词:增强个性化能力,优化本地数据。

提示词组合公式为:

其中 作为全局和本地提示词的混合系数,用于平衡联邦学习中的泛化性与个性化。通过基于所提出的理论框架进行推导,得到了以下定理:

定理 1:PromptFolio 优势

在任意给定混合比例 下,PromptFolio 的性能总是优于单独使用全局提示词或局部提示词的测试损失:

并且我们在不同数据集下的实验结果也验证了这个现象:

定理 2:最优混合系数

我们还进一步推导了最优混合系数的表达式:

其中, 表示全局和本地的任务相关与无关特征的比值, 表示全局与局部特征的相关性。这个公式表明,当数据异构性较大时,最优的参数更倾向于增加局部提示词的权重,从而增强个性化性能,而我们的实验结果也验证了这个现象。

此外,我们还做了一系列比较实验,我们的方法虽然比较简单,但是在性能上也有着比较强的竞争力。

此外我们还通过测试不同的 shot 数以及不同的模型架构,验证了 PromptFolio 机制,也展示出理论分析框架的有效性。

综上所述,本文通过引入特征动力学理论,构建了一个基于视觉-语言基石模型的理论分析框架,并且以“提示词组合”机制为例,展示出了该理论分析框架的有效性。

(文:PaperWeekly)

欢迎分享

发表评论