EMNLP 2024最佳论文:基于散度校准的大模型预训练数据检测方法

引言

大规模语言模型(LLMs)的有效性在很大程度上依赖于其预训练数据的规模和质量。然而,许多模型开发者出于保密或其它原因,往往不愿意公开其训练语料的具体细节。这种缺乏透明度给科学评估和伦理部署带来了诸多挑战。
随着对 LLMs 的应用日益广泛,预训练数据的隐私和版权问题引起了越来越多的关注。例如,OpenAI 和 NVIDIA 因其训练数据的使用面临法律诉讼(Grynbaum and Mac, 2023; Stempel, 2024),这进一步突显了透明性的重要性。
在此背景下,针对如何检测给定文本是否为 LLM 的预训练数据的问题展开了研究。具体而言,研究者们探索了多种方法,这些方法通过黑箱访问推断某段文本是否包含在 LLM 的训练数据中。现有的研究表明,文本的 Token 概率分布可以提供关于其是否为训练数据的重要信息。
然而,基于 Token 概率的现有方法,如 Min Prob 方法,通常假设非训练示例往往具有较低的 Token 概率,进而导致非训练文本被错误分类,特别是在非训练文本中含有许多高频词汇的情况下。

为了应对这一挑战,本文提出了一种基于发散的预训练数据检测方法(DC-PDD),旨在通过对 Token 概率进行校准,提高检测准确性。

论文题目:
Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method

论文链接:

https://arxiv.org/abs/2409.14781

在本研究中,作者们聚焦于以下关键问题:如何在不知晓训练数据的情况下,检测一个黑箱 LLM 是否在某段文本上进行了预训练。通过引入 DC-PDD 方法,研究者们希望能够更准确地识别训练数据,从而增强对 LLMs 的透明度和可解释性。
图 1 展示了 Min Prob 方法与 DC-PDD 的基本思想对比。通过分析,可以发现,DC-PDD 能为文本分配更为反映其是训练数据或非训练数据的得分,而 Min Prob 可能会产生误判,这一不准确性将影响对 LLMs 训练数据隐私的理解与保护。

图1: 概念示例:代表非训练文本,而为训练文本。(a) Min Prob直接选择具有最低概率的Token进行检测。(b) DC-PDD利用Token概率分布和Token频率分布的发散性进行检测。

问题陈述

在这篇论文中,预训练数据检测任务被形式化为一个分类问题,目标是确定特定文本 是否包含在某一大型语言模型(LLM) 的预训练语料库  中。具体地,给定文本 和模型 ,该任务的目标是设计一个方法 ,从输入中预测 是包含在训练数据中,返回值为 1;如果 不在训练数据中,则返回 0。其形式化表达如下:

2.1 黑箱设置

与先前的研究一致,本文假设在黑箱设置下进行预训练数据检测。也就是说,研究人员只能查询 LLM 来获取目标文本 的 Token 概率,而无法访问模型的内部结构(如权重和激活值)。这使得该任务具有独特的挑战性,因为传统成员推断攻击(MIA)往往依赖于能够访问训练模型的内部信息,而在现有的大规模语言模型中,这种接入往往是不可行的。

2.2 当前文献的局限性

在现有文献中,预训练数据检测主要可以分为两类方法:白盒设置和黑箱设置。白盒设置要求访问 LLM 的内部信息,例如权重和激活,但由于 LLM 通常不公开其内部结构,这类方法在实践中难以操作。相对而言,黑箱设置成为近年来研究的热点,大部分研究依赖于文本的 Token 概率分布来判断文本是否包含在训练集中。
然而,现有的一些方法存在明显的局限性。例如,Shi et al. (2024) 提出的 Min Prob 方法,假设非训练文本的 Token 概率较低,但在处理包含大量高频词的非训练文本时,可能导致误判。这种方法可能过于简单,未能充分利用各种特征。

因此,本文的研究关注如何在不获取训练数据的情况下有效检测 LLM 的预训练数据,从而为解决隐私和版权问题提供有效工具。

方法概述
在这一节中,研究者介绍了基于发散的预训练数据检测方法 DC-PDD(Divergence-based Calibration Method for Pre-training Data Detection)的整体流程。该方法的目标是通过计算文本的 Token 概率分布与训练语料中 Token 频率分布之间的差异,以检测给定文本是否是大型语言模型(LLM)预训练的一部分。整个方法主要分为以下四个步骤:

3.1 Token概率分布的计算

首先,通过查询目标 LLM,研究者获取待检测文本的 Token 概率分布。具体过程为:
1. 在待检测文本前加上一个句子开始标记,记为
2. 将处理后的文本 输入到模型中,得到对应于真实 Token 的预测概率序列:

其中, 表示给定上下文的 Token 概率。

3.2 频率分布的计算

根据发散与随机性的理论,LLM 的训练语料库的频率分布 不可直接计算。为了估计这些频率,研究者使用了一个大型公共可用语料库 。具体表达为:

其中, 表示在语料库中 的出现次数,而 是语料库中的总Token数。此外,采用拉普拉斯平滑处理零概率问题:

这里 表示 LLM 的词汇量。

3.3 评分计算

接下来,通过比较上述两个分布,研究者为每个 Token 计算一个得分 ,以结果为:

为了防止得分被少数 Token 主导,设置一个超参数

最终,使用首次出现的 Token 计算最终得分:

其中, 表示在文本 中首次出现的 Token 集合。

3.4 二元决策

在计算出得分 后,研究者应用预定阈值 来预测文本 是否包含在 LLM 的预训练语料中。如果 不小于 ,则预测 被包含在训练数据中,否则不被包含:

通过以上各个步骤,DC-PDD 方法显著提高了预训练数据检测的准确性,尤其是在对文本进行分数评估时,引入了 Token 概率校准,使得其检测可信度较之前的基线方法大幅提升。

实验设置

在本节中,研究者们详细介绍了为评估所提出的 DC-PDD(基于发散的预训练数据检测方法)而进行的实验设置,包括使用的基准数据集、模型、基线方法以及相关的评价指标。

4.1 基准和模型

研究者们使用了三个主要的基准数据集,其中包括 WikiMIA、BookMIA 以及新构建的 PatentMIA。WikiMIA 和 BookMIA 是两个英文语言的数据集,分别用于评估 DC-PDD 在使用不同语言模型时的性能。这些基准数据集的构建遵循了 Shi 等人(2024)的研究成果,采用了特定的日期划分方法,以区分训练和非训练数据。
与此同时,研究者们引入了 PatentMIA,这是一个专门为中文语言预训练数据检测而设计的新基准,数据源来自 Google Patents(Google, 2006)。这种新的基准为评估不同检测方法在中文文本上的表现提供了良好的基础。
在实验中,研究者们选择了多个大型语言模型进行测试,包括 OPT-6.7B、Pythia-6.9B、Llama-13B 以及 GPT-NeoX-20B 等。这些模型均在 2017 年后发布且在其预训练数据中被广泛认为包含了用作基准的数据。
对于 PatentMIA 基准,研究者们选择了 Baichuan-13B 和 Qwen1.5-14B,这些模型在中文文本生成中具有代表性,并且在 2023 年 1 月 1 日至 2024 年 3 月 1 日期间发布。

4.2 基线方法

为了全面评估 DC-PDD 的性能,研究者们使用了一系列基线方法。这些基线包括:
  • PPL: 该方法通过计算文本的困惑度(Perplexity)来判断其是否为训练数据。困惑度低的文本更有可能出现在训练数据中。
  • Lowercase: 将文本转换为小写后,计算原文本和小写后文本的困惑度比值。
  • Zlib: 采用文本经过 Zlib 压缩后的熵值与其困惑度的比值进行比较。
  • Small Ref: 通过比较较小模型的困惑度来调整目标模型的困惑度进行检测。
  • Min K% Prob: 选择文本中概率最低的 k% 的 Token,并计算其平均对数似然值作为检测分数。
这些基线方法为 DC-PDD 提供了比较基础,使研究者能够客观评估其优势。

4.3 评价指标

研究者采用了 AUC(ROC 曲线下面积)和 TPR(在低 FPR 下的真正例率)作为主要评价指标,以衡量不同方法的表现。AUC 指标通过绘制真正例率与假正例率的图形,提供了一种综合评估分类方法的能力。
对于每个基准数据集,研究者们在不同的阈值下计算了 TPR,并选定了 5% 的 FPR 作为具体评估目标。这种设置反映了 DC-PDD 在预训练数据检测中的有效性,并为未来的工作提供了有力的比较基准。通过文中表格(如表格 2 和表格 3),研究者以可视化的方式展示了不同方法在 AUC 和 TPR @ 5% FPR 上的比较结果。

通过以上实验设置,研究者们为进一步验证 DC-PDD 的有效性打下了坚实的基础,并为后续的结果分析提供了清晰的背景信息。

实验结果与分析
在本节中,研究者们汇报了 DC-PDD 与多个基线方法在预训练数据检测任务上的实验结果。尤其关注了在不同数据集和模型上 AUC(ROC 曲线下面积)和 TPR @5% FPR(假阳性率为 5% 时的真正率)的比较。
首先,实验结果表明 DC-PDD 在三个基准上均优于大多数基线方法,具备更好的检测性能。例如,在 BookMIA 基准测试中,DC-PDD 的 AUC 提升了 5.4%,TPR @5% FPR 提升了 9.6%。
实验表明,DC-PDD 对 WikiMIA 基准的 AUC 提升幅度相对较小,可能由于 WikiMIA 的数据样本较少,仅为 250 个示例,从而使得随机性和特殊性对结果的影响更为显著。

表格 2 和表格 3 展示了不同方法的 AUC 评分和 TPR @5% FPR 评分的比较结果。

▲ 表2. AUC得分用于检测预训练文本的结果

▲ 表3. TPR @5% FPR的得分用于检测预训练文本的结果

其次,DC-PDD 与基线方法相比,其表现不受特定数据集或模型的影响。例如,尽管 Min Prob 和 Min Prob 在 WikiMIA 基准测试中表现良好,但在 PatentMIA 基准测试中却表现不佳。这表明 DC-PDD 具有更强的泛化能力,能够适应不同种类的语言模型。
DC-PDD 的优势还在于,它不需要额外的参考模型,也不需要对 LLM 进行其他访问要求,这使得其在实际应用中更加便捷和高效。当前的基线方法,如 Min Prob,往往会错误地分类包含普遍词汇的非训练文本为训练文本,DC-PDD 通过引入发散校准的方式有效解决了这一问题。
最后,研究者们进行了多项消融研究,以进一步探讨 DC-PDD 的性能与设计策略的关系。研究表明,在 Baichuan-13B 和 Qwen1.5-14B 模型中,DC-PDD 的两个策略——限制校准 Token 概率的上限(LUP)和仅选择文本中首次出现的 Token 概率(SFO)——都对方法的有效性有所贡献。
综上所述,DC-PDD 在预训练数据检测任务中表现优异,明显优于目前最先进的方法,具有广阔的应用潜力。研究者们打算在未来的工作中探索更灵活的检测信号与方法,以提高检测性能。

相关工作

在自然语言处理领域,成员推断攻击(Membership Inference Attack, MIA)被广泛用于评估机器学习模型的隐私安全性。Shokri 等(2017)首次引入 MIA,其目的是确定特定样本是否属于模型的训练数据集。
尽管早期的研究主要集中在传统深度学习模型(如 Sablayrolles 等,2019;Song 和 Shmatikov,2019)上,但近来针对大规模语言模型(LLMs)的MIA研究逐渐增多,涵盖了训练数据记忆(Nasr 等,2023)、数据污染(Oren 等,2023)以及版权侵犯(Duarte 等,2024;Meeus 等,2023)等应用场景。因此,本研究关注的预训练数据检测问题实际上是 MIA 的一种特例。
现有的预训练数据检测方法可划分为两类:白盒设置和黑盒设置。白盒设置假设研究者能够访问 LLMs 的内部结构(如权重和激活值),但这种情况较为少见。刘等(2024)提出一种基于探测技术的预训练数据检测方法,旨在通过对比文本在模型内部的表示及未见文本的表示,从而发现两者之间的差异。然而,由于 LLMs 的内部结构通常不向公众披露,基于白盒设置的检测方法大多不具备实用性。
相较之下,绝大多数研究集中在黑盒设置下,假设文本的 Token 概率分布能够提供文本是否包含于训练数据的重要信息。Carlini 等(2021)使用文本的困惑度作为指标来检测来自 GPT-2 的预训练数据,并提出了 Zlib、Lowercase 和 Smaller Ref 等方法,旨在利用目标文本的内在复杂性进行检测。
最近的研究中,Shi 等(2024)提出了一种简单而有效的 Min-K% Prob 方法,该方法利用了公共 Token 概率分布的直观性。然而,Min-K% Prob 方法在检测包含常见词汇的非训练文本时易于出错,这使得该方法的有效性受到限制。
另外,Zhang 等(2024)提出的 Min-K%++ Prob 进一步改善了 Min-K% Prob,但其要求访问模型在整个词汇表上的下一个 Token 预测概率分布,这对于诸如 GPT-3 等封闭源模型来说并不可行。
本研究所提出的 DC-PDD 方法在很大程度上克服了上述方法的局限性。DC-PDD 的方法创新在于,在实际操作中无需额外的参考模型,也不需要对 LLM 的额外访问权限。
与以往的方法相比,DC-PDD 通过对 Token 概率的校准,使预训练数据检测的信号更具信息量。这一理论基础充分植根于发散(divergence)理论,这一理论为改进 MIA 提供了有效思路。

总的来说,现有的 MIA 研究和预训练数据检测方法虽然取得了一定的进展,但仍存在一些局限性,其中包括对语言和文本的特定性限制,以及大规模模型在隐私保护方面的挑战。因此,未来的研究应着重探索更为灵活和普遍适用的检测方法,以进一步提高对不同数据模态和大规模模型的适应性。


更多阅读


#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·
·

(文:PaperWeekly)

欢迎分享

发表评论