
收录会议:
论文链接:
背景
新发现
我们利用探测技术 probing 评估模型 backbone 对目标任务的表示能力,实现如图 1 所示。



(b)线性探测表现
▲ 图2 意图识别任务观测表现和线性探测表现对比
我们发现四个探测指标的排序如下:Linear > Cosine Linear ≈ Cosine Prototype > Prototype。如图 3 所示:

(a)线性探测

(b)余弦探测

(c)原型探测

(d)余弦原型
▲ 图3 四种探测指标情况
首先,我们需要分别理解 LLMs 的特征(即最后的隐藏状态)、词向量和探测分类器中的类别嵌入“是什么样的”。特征、词向量和类别嵌入的 L2 范数和余弦相似度的直方图如图 4。

(a)特征相似度

(b)特征-词嵌入相似度

(c)特征范数

(d)词嵌入范数
图 4a 显示,特征在向量空间中占据一个狭窄的圆锥形区域,而不是在所有方向上均匀分布。更令人惊讶的是,图 4b 显示,学习到的(输出)词向量与特征几乎是正交的。我们推测,交叉熵损失函数鼓励除了真实标签外的所有词向量在预训练过程中远离特征。
因此,余弦线性探测忽略了特征范数的差异,因此相比于线性探测,其性能较差。对于原型探测,原型位于一个狭窄的圆锥空间中,原型和特征之间的相似度较大,且接近彼此。在这种情况下,余弦归一化可以消除范数的干扰,从而建立 logits 和特征之间余弦相似度的关系。
新发现3:LLMs 抵抗遗忘的关键在于 Transformer 的结构和预训练获取的知识
然而,当模型进一步泛化到预训练语料库时(步数 10k – 步数 143k),小型骨干网络(如 Pythia-70m 和 160m)的线性探测性能再次下降,原因是预训练和下游任务之间存在差距。这个差距可以通过适应下游任务来消除。
对于较大的骨干网络(如 Pythia-410m、1b 和 1.4b),模型能够直接适应新任务,而不会受到这种差距的影响。此外,我们还有以下有趣的发现:

(a)意图识别(Before SEQ)

(b)意图识别(After SEQ)

(c)关系抽取(Before SEQ)

(d)余弦原型关系抽取(After SEQ)
▲ 图5 不同训练步骤的检查点的线性探测性能
1. 预训练确实改善了增量学习中的线性探测性能(见图 5b 和图 5d)。
3. 更令人惊讶的是,SEQ 提高了几乎所有预训练步骤的模型的线性探测性能(见图 5a 与 5b;图5c 与 5d)。这表明,Transformer 的架构即使仅在新任务上进行顺序微调,也能够逐步吸收新知识。
新发现4:真正的遗忘发生于分类器中

(a)观测分类器范数

(b)探测分类器范数

(c)观测分类器移动距离

(d)探测分类器移动距离
图 6c 和 6d 显示,观察分类器的类别嵌入相对于探测分类器发生了显著变化。这表明,遗忘现象的发生是因为旧的类别嵌入被推离了其初始和最优位置。
最后,我们根据实验发现设计了 SEQ,提出了以下策略来缩小 SEQ 中探测和观察性能之间的差距:(S1)Warm-up 后冻结 LLMs;(S2)在学习新任务时冻结旧分类器;(S3)只有在 CIL 场景中没有旧数据可用的情况下才使用余弦线性分类器。否则,请使用线性分类器;(S4,可选)预先分配未来的分类器。
https://aclanthology.org/2024.acl-long.794/

(S1)Warm-up后冻结LLMs

(S2)在学习新任务时冻结旧分类器

(S3)使用正确的分类器

(S4)预先分配未来的分类器
▲ 图7 对 SEQ* 的描述

更多阅读

#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
(文:PaperWeekly)