AAAI 2025 武大团队提出SEAM框架:「强赋能弱监管」的弱到强泛化

©PaperWeekly 原创 · 作者 | 李永奇

单位 | 武汉大学

研究方向 | 自然语言处理



Background

在开始介绍我们的论文前,先简要介绍一下:1)什么是 super-alignment2)什么是 weak-to-strong generalizationW2SG)?基于此,我们再详细介绍我们的 motivationmethodexperiments


1super-alignment:人类如何对齐(可能出现的)能力超过人类的 superhuman AI


2weak-to-strong generalizationW2SG):super-alignment 的类比实验。实验中,利用 weak model 来提供用于训练 strong model 的 supervision signals(也即 weak labels)。其中,weak model 通常采用一个 aligned model(类比于 aligned humans),strong model 采用一个 unaligned model(类比于尚未与人类对齐的 superhuman AI)。


论文标题

Strong Empowered and Aligned Weak Mastered Annotation for Weak-to-Strong Generalization

论文链接

https://liyongqi2002.github.io/resources/arxiv_aaai25_W2SG.pdf

代码链接

https://github.com/liyongqi2002/SEAM



Motivation

这一节将系统性地从 idea 起源介绍,相较于论文中的 motivation 介绍会略微冗杂,如果觉得太长可以看原论文,当然还是更希望大家看完下面的琐碎话,里面有一些我对于 W2SG 的一些朴素认知,如果有误请指正,感谢


笔者对于 super-alignment 或 W2SG 的理解主要在两个方面:data quality  generalization


从 data quality 角度,关键问题在于如何改进 weak supervision 的质量。


从 generalization 角度,关键问题在于如何找到适应于 W2SG 场景下的算法,来使得其适应 weak supervision 分布的特点(与半监督学习或噪音学习类似都存在 noisy signals 的问题,但又有不同,不同点在于 noisy signals 是来自于一个特定模型的,可能有其独特的特点能启发减缓噪音的设计)。


如果熟悉 scalable oversightscalable oversight 关注于如何借助 AI 来提升 human supervision 的质量)[4-7] 的朋友,应该不难发现,scalable oversight 和 W2SG 中的 “data quality 角度几乎是一样的问题。事实上,在 Jan Leike 的博客中,也指出了 scalable oversight 和 W2SG 的相辅相成 [1]


这自然地启发了我们借鉴 scalable oversight 的相关思想来改进W2SG的表现,即如何借助 strong unaligned model 来帮助 weak aligned model 做出更好的 weak supervision


那么问题来了:strong 怎么帮助 weak 呢?22 年末 Open AI Burns 等人的工作(W2SG 开篇之作)[2] 提出了一个 auxiliary loss,其利用 strong model 的置信度来纠正 weak labels。具体来说,当strong model 对某个标签 confidence 超过一个阈值,则据此纠正 weak labels


此后,沿着这个思想,也出现了一批基于 confidence 的 loss 设计或 data selection 设计 [3]。这属于第一类,我们称之为基于 strong model 的 confidence 来辅助 weak labels 纠正


但是我们认为上述第一类思路在真实的 super-alignment 场景中有一个极具风险的危害,我们称之为 risky correction(备注:super-alignment 的目标包括两方面,一方面是通过 noisy weak supervision 来迈向更强的 AI,即 capability super-alignment,另一方面则是监管 super-human AI 使得其价值观与人类保持一致,即 safety super-alignment。这两方面我们认为同样重要)。


具体来说,在一些涉及到 harmless 目标的样本上,strong unaligned model 的置信度可能反而是有害的,因为它的 confidence 有可能会偏向于 helpful but harmful


这样一来,即使 strong model 的 confidence 在仅涉及 safe and helpful 目标的样本上会帮助提升 weak labels 的质量,但是上述 risky correction 风险似乎也让该类思路的合理性受到质疑(当然,如果仅将 W2SG 作为 capability super-alignment 的类比实验,这类思路也是可以接受的。


本文基于同时考虑 capability super-alignment 和 safety super-alignment 的设置下做讨论)。


既然 risky correction 的问题是存在的,那下一个问题来了:如何在避免 risky correction 的同时又做到 strong 帮助 weak


思路也很自然:strong unaligned model 仅提供一些样本相关的辅助信息,来传给 weak aligned model 做标注决策。这样一来,最后做把关决策的依然是 weak aligned model(理想情况下,risky correction 风险就没了),而 strong unaligned model 在预训练阶段获得的能力也很好地得到了利用(这里扣题,强赋能弱监管)。


当然,strong unaligned model 依然有在提供的辅助信息中捣乱的可能性(比如掺杂一些 strong unaligned model 自身的 harmful explanation),weak aligned model 最后做标注决策的时候也不一定能完美地利用好辅助信息等。


但这些都属于可供后续解决的 limitations,最起码,该类思路在理想情况下能够做到规避 risky correction 且利用到 strong 的丰富内在知识。到这里,大家应该能感觉到,这就是 scalable oversight 所研究的重点。而且,一些同期 W2SG 工作也是沿着该思路进行的探索,例如 [8]


整体思路有了,下面的问题也很清楚:1)如何设计引导 strong 生成高质量辅助信息的策略?2)如何设计 weak 做标注决策的策略。本文关注于第一个问题(第二个问题也很重要,但很遗憾,本文在投稿时并没有想到特别好的提升策略,只是采用了最基础的 prompt 设计)。


对于第一个问题所指的高质量包括两个方面:1)辅助信息相较于原始样本有较高的信息增益;2)不能掺杂 strong unaligned model 的 harmful 信息(即不能让其捣乱)。


下面的方法也可以理解为对方面 的详细展开设计。对于方面 2,我们在实际实现中借用了 scalable oversight 领域中的一个常见做法 debate [6-7]:即让 strong 对于一正一反两个答案分别作解释,这样就会尽可能避免引入 strong 的偏见/有害看法。



Method

方法框架图如下,总的来说,我们先定义了若干个 principle 集合,这里受启发于 constitution AIself-alignment 等一些工作中所采用的 alignment principle 设计。


接着,利用 strong 模型来通过树搜索搜索到特定于样本的合适原则,并生成基于 selected principles 的 thought。最后,基于熵来计算信息量的增益,选择合适的 thought 节点传递给 weak 模型做最后的标注。

可能有读者会问:principle 的作用是什么?我们的回答大概可以分为两个角度:


1)没有 principle 指引,strong 所生成的 thought 会很空洞(实验中,我们发现,去掉 principlestrong 模型生成的 thought 会包含大量判断性话语而不是以更充分地解释样本为目标);


2super-alignment 的理论上必须需要人类 principle 的干预,否则很可能在 strong 模型生成辅助信息时就偏离人类价值观太远。


在实验上,我们也做了对比试验,相较于去掉原则的直接生成思考(Consultancy 和 Debate)都有明显提升。


具体做法参见论文,efficiency 方面是该方法的最大缺点。希望后续可以改进。



Experiments

我们主要在一些 alignment 数据集上进行了测试,将 task 聚焦于 preference task,也可以将我们的工作理解为关注于 reward model 的 W2SG。因此,我们也将 W2SG 得到的 reward model 放在了 text generation 的 alignment 设置做了实验。具体可以看论文。



Discussion

这个工作是笔者接触 W2SG 问题的第一篇论文,在当时对该问题的认知还比较粗浅,所以在方法设计以及论文中的表达可能有不足之处。这篇 blog 也是希望弥补原论文可能存在的缺陷(当然可能依然有错误或者导致误解之处,欢迎指出)。W2SG 中还有很多有意思的问题,不论是理论上还是实践方法设计上(后面有时间我会尝试整理出来)。



(文:PaperWeekly)

欢迎分享

发表评论