为什么 LLM 水印永远都不起作用

作者 | David Gilbertson
译者 | 平川
策划 | 褚杏娟

本文最初发布于 David Gilbertson 的个人博客。

你听说过这样的说法吗?“水印可以帮助识别由 LLM 生成的文本”或者 “水印有助于减少 AI 的危害,如生成错误信息”。

在这篇文章中,我将引导你进行一系列思想实验,看看为什么水印无法满足这些要求。在这个过程中,你并不需要水印技术相关的知识,你只需要常识和推理能力。

如果你急于制定政策,想看一下你对水印的理解是否符合现实,那么你可以直接跳到文章最后的 “问题 ”部分,看看是否能在那里找到一个不错的答案。

什么是水印?

水印(特别是 LLM 文本的统计水印)是在生成 LLM 响应时发挥作用的一个过程。

一个人为设计的水印方案可能是这样的:在生成响应的每个单词时,如果前一个单词的开头字母在字母表中的位置是偶数(B、D、F 等),那么它就会稍微优先选择以奇数字母(A、C、E 等)开头的单词。然后,你可以通过检测算法检查任何一段文本,它就会以一定的可信度告诉你该文本是否有这种特定的 “水印”(单词模式)。

现实世界中的策略更为复杂(而且是针对词元而非单词),但希望你能借此了解 LLM 如何生成在人类看来自然的文本,而当你需要知道什么时,又能检测出它是 “合成 ”文本。

那么,我们能分辨出 
LLM 生成的文本吗?

水印的初衷是 “帮助识别由 LLM 生成的文本”。

你可能会认为,水印是为了实现以下两个目标中的一个:

  1. 识别由特定的加了水印的 LLM 生成的文本;

  2. 区分 AI 生成的文本和人类生成的文本。

水印技术解决了第一点,但经常被说成是实现了第二点。

第一种情况可能对 LLM 开发者有用。第二种情况对社会有用,因为它可以帮助保护公众免受 AI 带来的各种危害(理论上)。

当我说水印 “永远不会起作用 ”时,我的意思是,它永远无法解决区分 AI 生成的文本和人类生成的文本这个问题。进一步讲,水印也无法防止 AI 生成的文本对社会造成危害。

你可能会问,这是否是一种稻草人论调?其实不然。“水印可以帮助识别由 LLM 生成的文本 “,我读过的关于该主题的每篇论文(1、2、3、4、5、6)都提到了这一说法。而这些论文中的大多数都接着提出了一个更有力(也更错误)的主张,即水印可以在某种程度上帮助减少危害。我们把目光转向媒体上报道的关于水印的最新论文(来自 DeepMind,发表于《自然》),它们都提到了水印能够检测 AI 生成的内容并减少危害(1、2、3、4、5、6)。其中没有一篇论文提到水印永远不会起作用的原因。由此可见,对于水印的潜力,许多人的看法是错误的。

为什么水印永远不会起作用?

要使水印技术能够区分 AI 文本和人类文本,必须满足三个条件。我将在下面的章节中逐一解释其中的原因。这三个条件是:

  1. 所有有能力的 LLM 都实现水印功能

  2. 所有 LLM 提供商都不进行词元选择控制

  3. 不存在开源模型

接下来,我们详细看下每一个条件。

1. 所有有能力的 LLM 都实现水印功能

我所说的‘有能力’是指 LLM 任何能够产生水印所要防止的有害结果。

对于 “永远不会起作用 ”这样的话,你可能会持谨慎的态度。但我可以告诉你,这种情况是绝对不可能发生的,因为不带水印的开源模型已经存在。像 Llama 3.1 405B 这样的 LLM 已经被下载了数百万次,你无法阻止人们下载这些无水印模型。

读到这里,你可以停下了。单凭这一点,就足以解释为什么水印永远不会起作用:想要造成危害的人总能获得有能力而无水印的 LLM。

如果这还不够清楚的话,下图更直观些。该图一个简化版的 LLM 生态描绘。列代表文本来源,蓝色块代表水印内容。

最上面一行是我们目前的状态,只有一个 LLM 带水印。第二行是未来可能的最佳状态(大多数 LLM 都有水印,但现有的开放模型没有水印)。第三行是区分 AI 生成的内容和人类生成的内容,但这是不可能的。

遗憾的是,我们在讨论水印时所使用的语言往往无法区分“部分”和 “全部”由 AI 生成的文本,从技术上讲,上述三种情况都可以说成是 “检测 AI 生成的文本”。

你可能会说,这只是语义问题。但要检测 AI 生成的文本,就必须解决所有 LLM 的问题,否则就什么都没解决。

如果你的房子有四扇窗户,而你只锁了其中一扇,你会说这 “有助于保护好你的家”吗?如果你知道有的窗户永远也锁不上呢?如果窃贼事先知道哪些窗户会开着呢?

2. 所有 LLM 提供商都
不进行词元选择控制

在仔细思考一个问题时,我喜欢使用这样一个思维模板, “如果 X 为真,那么还有什么一定是真的?”,让自己沉浸在 X 为真的假想世界里。这可以帮助我推理一个主张或目标的合理性。在这种情况下,我们可以问:在一个所有 LLM 都有水印的世界里,还有什么是真的?

思考一段时间后,我们会意识到……

首先,在所有 LLM 输出都必须带有水印的世界里,LLM 提供商不能允许用户将温度设置为 0。如果你对 LLM 的 “温度 ”不熟悉,可以把它想象成 “随机性”。你需要知道的是,有时有一点随机性是好的,但有时你需要将其设置为零,比如当你希望相同的输入总是产生相同的输出时,或者是在生成严格格式的代码或数据时。你还需要知道,统计水印依赖于随机性,如果温度为 0 就不可能实现(出于类似原因,“top P”也是如此)。

其次,在所有输出都必须打上水印的世界里,LLM 提供商就不能像 OpenAI 那样,通过top_logprobs参数让用户访问每个词元的备用选项。如果你不知道 “top log probs ”是什么,也没关系,你只要知道这是 一个有用的功能。如果 OpenAI 希望所有输出都带有水印,就需要把它去掉。

因此,如果你设想的未来是所有 AI 生成的文本都带有水印,那么你也必须设想一个无法使用temperaturetop_ptop_logprobs的未来。

这很成问题,因为如果不允许降温的话,现有的危害缓解系统(内容节制、欺诈检测、漏洞查找系统 等)就会失效。因此,如果你非要使用水印来减少危害,其副作用很可能是增加危害,因为现有系统的运行效率会被迫降低。

所幸,满足这一条件的可能性接近于零。

3. 不存在开源模型

我这里说的 “开源”,更具体地说,是指可以下载并在用户自己的硬件上运行的模型,而不是通过 API 提供的模型。

水印是在生成输出时发挥作用的。也就是说,这个过程发生在模型权重的黑盒之外,发生在根据模型输出选择词元的常规代码中。因此,从开源模型中移除水印机制非常容易(只需删除添加水印的代码即可)。也就是说,只有当水印是在应用程序接口(API)后台实现时才真正有意义,因为它可以由 LLM 提供商强制应用。

(我猜测,很多人对水印的看法,都形成于所有有能力的 LLM 都以 API 形式提供时。他们至今还没有更新自己的观点。也许他们在读到这篇文章的时候已经在更新了……)。

因此,如果你想要一个有水印的世界,你就需要一个没有开源(可下载)模型的世界。

还要考虑到,精明的恶意用户会想到,如果使用以 API 形式提供的 LLM,他们很可能会被监视(OpenAI 报告 了他们阻止的恶意账户,并描述了不同技术公司如何共享信息以实现对恶意用户的跨平台追踪)。因此,无论是否有水印,恶意用户都会选择开源模式来保护隐私。但在开源模型中,水印是没有意义的!

现在,有人可能会说,开源模型不像专有模型那么强大,因此造成危害的可能性较小。未来也许只有基于 API 的 LLM 才会强大到足以造成真正的危害,所以我们不必担心开源模型的水印问题。即使事实如此,也无助于解决水印问题,因为你可以使用开源模型改写更强大模型的输出,从中去除水印。而且,更智能的 LLM 也并不需要更智能的改写方法来去除水印,不管未来会发生什么,现在的模型都已经足够好。

有些人可能会说,是的,水印可以通过改写来绕过,但那仍然是一种威慑。我想礼貌地要求对这一说法进行量化:心怀不轨的人有多大的比例会被阻止,在编造这个统计数据的过程中,又有多少一厢情愿的想法?

其次,如果单纯的 “威慑 ”就已经让你感到满意,那么我有一个水印方案供你使用!其工作原理是这样的:只需在 LLM 输出中,用 “en space ”字符替换普通空格字符。在人看来,它们是一样的,但却有明显的不同。这个例子似乎微不足道,但即使是最先进的水印技术,也很少比空格替换更稳健。在这两种情况下,LLM 提供商都可以声称他们的内容可以被检测出是 AI 生成的,但在这两种情况下,恶意用户都很容易绕过它,而你在现实世界中所获得的危害缓解效果微乎其微。

说白了,第三个条件(没有开源模型)与第一个条件(所有 LLM 都有水印)有微妙的差别。第一个条件只是指出我们无法回到过去:我们已经有了不带水印的 LLM,而且无法撤回。第三个条件指出,不能有用户可以自由下载和修改的 LLM。

所以,我已经给出了一个理由,说明为什么水印永远无法作为检测 AI 文本的手段。我希望你能清楚这个想法中存在的无法克服的问题。

说到这里,你可能会退一步问:如果不使用水印,我们还可以研究哪些技术方案来实现检测 AI 文本的目标呢?

这是一个值得思考的问题,但我建议再退一步问:检测 AI 生成的文本这一目标有意义吗?

检测 AI 生成的文本有意义吗?

为了探讨这个问题,我们想象一下,在另一个宇宙中,所有 AI 生成的文本都带有水印,而且都能被检测到,无一例外。这似乎是一场胜利,对吗?目标达到了,难题解决了。

但只要仔细想想就会发现,这实际上并没有解决任何问题,而且 “检测 AI 生成的文本 ”也不是一个令人向往的目标。

我们需要考虑两个问题:

  1. AI 文本与人类文本之间的区别不是二元对立的

  2. AI 生成 “和 ”有害 “不是一回事

让我们逐条分析下。

1. 这不是一个二元问题

人类可以写一段文字,然后请 LLM 帮他们整理(我希望有更多人这样做)。LLM 可以总结人类撰写的若干资料,并生成常见主题的报告。科学家可以用爱沙尼亚语撰写论文,然后请 LLM 将其翻译成英语发表。

无论什么情况,基本思想和概念都来自人,只是由 AI 进行了组织或重新排列。这算不算 “AI 生成”?(既要考虑你自己对这个问题的看法,也要考虑并非所有人都会看法一致的事实)。

随着 LLM 越来越出色,越来越多的人意识到使用 AI 辅助写作(和思考)的好处,越来越多的内容将以某种方式与 AI 产生联系。

因此,这并不是一个二元划分,而且只会越来越不是。

很多糟糕的解决方案就是因为这个原因导致的:把一个以二进制为主的系统当作一个严格意义上的二进制系统来处理(通常是因为二进制输出比较方便——如果提交的论文有 LLM 水印,就直接拒绝”)。乍看起来,这些解决方案没问题,但遇到 “例外情况”就会出现未定义的行为。

因此,任何关于 “检测 AI 生成的文本 ”的思路只要结果是二元的,本质上都是有问题的。任何人在提出检测 AI 文本时,如果没有解决不可避免会出现的假阳性和假阴性问题,都应该保持警惕。

2. 并不是所有 AI 生成的内容都有害

对于任何想要检测 AI 文本的用例,都应该思考一下为什么要这样做。你的实际目标可能略有不同,比如减少错误信息或防止学生作弊。

下面的维恩图展示了 AI 生成的内容和我们想要防止的有害内容之间的关系:

在这篇文章中,我试图做出一些容易达成共识的论断(不可能不存在开源 LLM,等等)。但现在,对于我在维恩图中画的这两个圆圈的大小,你可能会认为我画错了。你可能认为大多数 AI 生成的内容都是有害的。没关系。为了继续讨论,我们需要达成一致的是,并非所有 AI 生成的内容都是有害的,也并非所有有害的内容都是 AI 生成的。

因此,即使我们有能力稳健地检测 AI 生成的内容,我们仍然面临两个相当大的问题:

  1. 如何缩小范围,只检测有害的内容?

  2. 那些不是由 AI 生成的有害内容又该怎么办?

“我们需要一种方法来检测 AI 生成的内容”,在我看来,这个想法是 “目标转换 ”的结果。在深入思考一个问题时,我会寻找目标转换的迹象,因为这通常是逻辑错误(和浪费精力)的指标。

在这种情况下,目标转换的原理是这样的:我们是从 AI 带来的几种新危害(错误信息、学生作弊等)开始的,我们 真正的目标 是防止或缓解这些危害。现在,这些危害都是由 AI 生成的内容造成的,因此,将目标转换为 “检测 AI 生成的内容 ”这一 代理目标 似乎是合理的。然后,人们就会朝着这个代理目标努力。在本例中,所采取的方法就是实现水印。

有时,目标转换是无害的。但在本例中,从减少危害的真正目标转换到检测 AI 内容的代理目标并不合适(在维恩图中表现为有限重叠)。因此,即使我们达成了代理目标,实际上也并没有减少任何危害,而这才是真正的目标。

顺便说一句,任何针对 “AI 内容 ”的立法都会犯同样的逻辑错误。立法的目的是减少危害,但措辞却很快从 “减少危害 ”过渡到 “给 AI 生成的内容贴标签”,好像两者是等同的。

好了,对于检测 AI 文本的背后逻辑,我们的抽象论证就先到这里。现在,让我们来看看水印本应 “帮助 ”解决的一些具体危害,并看看它们在相关的主题中发挥的作用。

我对减少危害的看法

(我们将继续假设我们身处另一个宇宙,在那里,所有 AI 生成的文本都带有水印)。

大规模的错误信息

这里的风险在于,LLM 能够以前所未有的规模有针对性地提供错误信息。乍一看,检测 AI 生成的文本似乎很合理,但真正的目标是防止错误信息的传播,无论是由 AI、内容农场还是人类生成的。

而错误信息只是所有 AI 文本的一个子集。因此,一旦检测到某篇文本是由 AI 生成的,就需要继续解决检测它是否是错误信息的问题。检测出 AI 文本,与以任何方式实际地减少危害还是有差距的。

当然,更明智的解决方案是检测错误信息

标记社交媒体上 AI 生成的内容

人们普遍认为,本质上,AI 生成的文本就是 “坏 ”的。即使没有明说,任何以 “透明 ”为名要求贴标签的呼声都暗示了这一点。

当然,社交媒体上有些 AI 生成的内容确实是不好的,但也有很多潜在的好内容。任何产品公司都可以部署一个机器人助手来回答用户的问题(无论用户在哪里提问)。大学的海洋生物学系可以推出一个机器人来回答网络上关于鲨鱼的问题。Snopes 机器人可以礼貌地用事实回应虚假信息,从而积极地打击错误信息,并让最需要的人看到它。(AI 比人类更善于礼貌地解释错误的原因)。

随着时间的推移,人们将逐渐依赖并喜欢 AI 生成的内容(通常只是重新混合的人类内容)。如果所有这些内容,无论好坏,都被贴上 “AI 生成 ”的标签,那么这个标签很快就会变得毫无意义,因为它不符合人类的价值观,比如对质量、真相、教育和娱乐的追求。

同时(回到现实中),不要忘了,怀有恶意的人会绕过水印。这样一来,他们的文本就会隐含有一个 “人类生成 ”的标签,这反而有助于掩盖他们的欺骗行为。

目前来看,这种贴标签的想法只是短视和不合逻辑,但实际的情况可能更糟。目前的法规只要求对 AI 生成的文本进行标注,但如果再进一步,我们试图限制 AI 文本,那可能会阻碍有益机器人的出现。因此,这种简单化的观点——机器人坏,人类好——从长远来看可能会造成危害。我们应该严肃质疑任何基于这一前提(明确或不明确)的监管。

有人会说,贴标签是为了让用户有 “知情权”,知道内容不是由人编写的。这很有意思。想象一下,如果有人告诉你,我们有 “知情权 ”,我们得知道内容是不是左撇子写的。你会问 “为什么,他们怎么了?“把这说成是一种 “知情权”,不过是给 “机器人坏,人类好”这种错误观点披上了一层薄薄的面纱。

题外话:我认为,在聊天环境中,知道自己是在与人类还是机器人交谈是有好处的。对此,并不需要在文本上打水印,只需要聊天机器人不将自己标识为人类(在某些司法辖区,这可以通过现有的虚假广告法来强制执行)。需要注意的是,在这种情况下,可以对与人类聊天和与聊天机器人聊天做更明确的二元区分了。考虑下未来,当机器人在医疗建议等方面比人类更胜一筹时,用户就会希望知道,他们是在与机器人聊天,这样他们就能获得最好的建议。因此,这既合乎逻辑,又高瞻远瞩。

交互式电子邮件诈骗

利用 AI 进行电子邮件诈骗是一个严重的风险,它能以前所未有的规模操纵受害者(网络钓鱼、套取资金等)。如果执行得当,这可能会造成重大的危害(想象一下这样的世界,诈骗并不容易识别,而骗子比你更聪明)。

这时,检测 AI 生成的文本似乎很有用,但我们遇到了检测错误信息时遇到的问题;恶意 AI 文本只占所有 AI 文本的一小部分,那么你究竟该如何从 “检测 AI 生成的文本 ”迈向 “检测 AI 驱动的骗局 ”呢?

更好的解决方案应该是检测恶意或欺骗性内容,而不管这些内容是由谁写的。

现在,我承认,如果我正在和我的老板们通过电子邮件交谈,他们让我把公司账户里的钱转到比特币账户上,而他们的每封邮件都被标记为 AI 生成的,那么我可能得三思而后行。所以,如果你认为骗子们会乐于使用水印文本,这将是一个相当不错的主意。但他们当然不会。他们会绕过水印,而他们的诈骗邮件也不会被贴上 AI 生成的标签。

学生论文作弊

最后这个例子更合适,可以说是最有说服力的水印案例(如果无法绕过的话)。

如果老师指导学生完成一篇论文,并告诉他们不要使用 LLM,那么 “AI 文本 ”和 “不良行为 ”的重叠几乎是完美的。

但是,即使 AI 文本检测能提供大部分的真阳性结果(正确识别作弊者),你还是会漏掉那些没有使用 LLM 或绕过水印的作弊者。而且,论文可能因为巧合而与水印模式一致,而你可能因此向学生发出错误地指控(如果你将检测应用于数百万学生并引发强烈的反响,这将是一个非常严重的问题)。

另外,我认为学生应该利用 LLM 来帮助他们思考论点,挑战他们提出的观点,帮助他们改进文章。现在,这已经成了一项宝贵的生活技能,因此必须要注意,不要惩罚这种行为。

现在,如果你仔细思考一下这种作弊的情况,你就会发现水印纸牌屋的另一个结构性问题……

每当谈到内容水印时,都需要有一个公开可用的系统来检测水印。因此,和作弊的学生换位思考一下(在另一个世界里,LLM 的所有输出都带有水印)。你的目标是作弊并避免被发现。你会怎么做?你会找一个 LLM 来帮你写论文(有水印),改几个词,然后用检测系统检查一下,看看水印是否还能被检测出来。如果它被标记为 AI 生成的,你就再改一下,然后再检查一次,如此反复。你不会被发现的,因为你不会提交带有可检测水印的论文。

在继续讨论之前,我想说明的是,我并不是说这些问题都有一个简单的解决办法。我只是想说,检测 AI 生成的文本并不是一个解决方案。

水印毫无意义吗?

围绕水印的讨论让我想起了区块链。两者都是有趣的技术成果,人们对它们如何解决各种社会问题做了很多说明。但这些说明大多包含错误的逻辑或基于错误的假设。而且,即使是一些声誉卓著的信源也乐于重复那些不合理的说法,因此,很难弄清楚,什么才是真正的真相。

话虽如此,还是有几支由聪明人组成的庞大团队在研究水印技术,因此一个合理的假设是,水印技术有其存在的理由,只是这些好处不包含广为宣传的减少危害而已。

据我所知,水印的主要用途是允许 LLM 开发人员检测其 LLM 生成的内容,使他们能够在用于未来训练的数据集中识别出这些文本。

它还让 LLM 开发人员可以遵守 欧盟《人工智能法案》第 50(2) 条 等要求添加水印的法规。(我当然希望这些规定不是基于水印可以减少社会危害的错误想法!)。

这给我们留下了一个谜团。为什么有那么多人把水印说成是解决 AI 造成的社会危害的办法,而只要仔细思考几分钟就会明白,水印永远也不可能解决这个问题。谁被误导了?又是谁在误导?

如果硬要推测的话,我会假设,撰写论文的研究人员了解,水印的应用范围非常窄;他们想检测由带水印的 LLM 生成的文本,并且知道当温度为零时水印不起作用,等等。他们将研究结果写成论文,然后在摘要中加以总结,并添加一些减少危害的说法,使论文具有更广泛的吸引力。记者们对这一话题进行报道,并加入自己的修饰,把水印描绘成普通人应该关心的事情。当信息传播到普通大众和政策制定者手中时,水印就被说成是区分 AI 文本和人类文本的一种方法,可以杜绝 AI 误导、论文作弊等现象。

也许,如果我们有更好的系统来检测错误信息,这种说法就会在传播之前被发现。

顺便说一句,你可能会觉得我跟水印技术有仇,其实不是那样的。我认为这项技术本身很有创意,也很出色——谁不喜欢隐写术呢?我质疑的是水印可以检测 AI 生成的文本(误导)和减少危害(可疑,近乎不真实)的说法。

朝着正确的方向迈出了一步?

我请 ChatGPT 对我在这篇文章中提出的论点提出质疑。它向我保证,尽管水印确实存在上述缺点,但它 “朝着正确的方向迈出了一步”。

我想象一个人,站在悉尼的海滩上。他要去洛杉矶。当他们走进大海,消失在波涛之下时,他们却声称自己是 “朝着正确的方向迈出了一步”。从技术上讲,这没问题,但从根本上说,这是错的。

如果我们的目标是预防危害(确实如此!),那么真正正确的一步应该是专注于检测和减少有害内容,而不是把注意力放在 “AI 生成的内容 ”上。

非文本模式

到目前为止,我们探讨的都是 AI 生成的文本。但上述逻辑是否也适用于照片和视频水印?或者说,在减少危害的语境中,这些内容模式在概念上是否有所不同?

归根结底:文字只是对现实的解释,而照片和视频则被广泛认为是对现实的再现。因此,照片和视频更有可能被用于误导,因为它们可以作为证据来展示(和接受)。

我承认,我有一种直觉,特别是在最先进的视频生成模型还是以应用程序接口(API)的形式提供时,视频水印有可能可以减少危害。但每当我有这样的直觉时,我都喜欢听听大脑的第二意见。如果我从恶意用户的角度来考虑这个问题,我会直接去除水印(通过翻转、裁剪、调整大小等),或者使用像深度伪造(deepfake)这样的无水印方法。

实际上,我认为水印对所有模式的影响都是一样的:恶意用户生成的任何内容中都不会有水印,因为他们会以某种方式绕过水印。

因此,我认为,任何模式的水印都不会有什么光明的前景。

然而,与文本模式不同的是,区分真实图像和合成图像的目标是有实际意义的,因为它们在社会中扮演着证据的角色。不过,与其尝试检测各种形式的虚假内容,更实用的方法是在相机的图像传感器捕捉到图像时对其进行数字签名,从而用于识别真实的内容。这就是所谓的 内容出处。2024 年 11 月,当我在写这篇文章时,有些相机 已经支持这项技术,YouTube 也开始将符合条件的内容标注为 “相机拍摄”。

这就解决了一个问题,即某人的不良行为被摄像头捕捉到了,但他们却声称那是深度伪造的。(长期来看,图像无法作为证据提供比少数人被假图像愚弄的风险更大)。有了内容出处,就会有经过签名的数字线索,证明图像是在特定的时间、地点直接通过特定的数码相机拍摄的。(当然,不法分子仍然可以声称视频是以非数字方式伪造的,而他们的忠实粉丝还是会相信他们)。

当然,长远来看,与给所有 AI 生成的内容都打上水印相比,检测真实内容似乎是更好的解决方案。

问题

最后,我将向水印支持者,特别是那些参与制定水印使用法规的人提出我的问题,并以这种形式重申我的主要观点:

  1. 既然已经有不带水印的开源 LLM——而且无法撤回——怎么能指望给部分 LLM 加上水印就能减少危害呢?你是否希望恶意用户不会利用无水印的 LLM?

  2. 你是否建议 LLM 提供商取消将温度设置为零(这会妨碍水印功能)这样的功能?如果是,那么接下来的问题是:如果系统因为温度高而无法可靠工作了,你打算如何处理由此带来的后果?

  3. 你是否建议在全球范围内禁止开源 LLM?如果不是,你打算如何确保水印以无法去除的方式应用于开源 LLM?

  4. 你是否建议提供公开的水印检测服务?如果是,恶意用户不会使用该服务来确保水印已被成功去除(例如,使用另一个 LLM 进行解析)吗?

  5. 如果你承认有许多方法可以生成不带水印的 AI 文本,但却仍然声称水印仍能起到 “威慑 ”作用,请给出量化数据。你认为水印能阻止 1% 的恶意用户吗?还是 99%? 依据是什么?残留的危害是否可以接受,或者你们是否也有计划解决这个问题?

  6. AI 文本和人类文本的界限在哪里?由 ChatGPT 编辑过的新闻文章是 “AI 生成的 ”吗?用 LLM 翻译的文章呢?用 LLM 代替作者将文章总结成推文呢?

  7. 如果你能够可靠地检测出 AI 生成的文本,你将如何缩小检测范围,只检测有害内容吗?如果你已经知道如何直接识别有害内容,那么首先识别 AI 生成的文本还有什么意义?

原文链接:

https://david-gilbertson.medium.com/why-llm-watermarking-will-never-work-1b76bdeebbd1

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

(文:AI前线)

欢迎分享

发表评论