
图片来源:Unsplash
多家机构指控 OpenAI 可能利用付费墙后的 O’Reilly 书籍训练 AI 模型,未经许可使用受版权保护的内容训练其人工智能。
如今,一家 AI 监督组织发布的新论文提出了严厉指控,称该公司日益依赖未公开且未获授权的书籍来训练更复杂的 AI 模型。
人工智能模型本质上是复杂的预测引擎。通过大量数据(如书籍、电影、电视剧等)的训练,它们学习模式及从简单提示中推断的新方法。当模型“撰写”关于希腊悲剧的论文或“绘制”吉卜力风格图像时,它只是在利用其庞大知识库进行近似模拟,并未创造出任何新内容。
尽管包括 OpenAI 在内的多家 AI 实验室,在耗尽现实世界数据源(主要是公共网络)后,已开始采用 AI 生成的数据来训练 AI,但完全摒弃现实世界数据的实验室寥寥无几。这很可能是因为纯合成数据训练存在风险,例如可能导致模型性能下降。
这份由 AI 披露项目(2024 年由媒体大亨 Tim O’Reilly 和经济学家 Ilan Strauss 联合创立的非营利组织)发布的新论文得出结论,OpenAI 很可能使用 O’Reilly Media 付费墙后的书籍训练了其 GPT-4o 模型。(O’Reilly 是 O’Reilly Media 的 CEO。)
在 ChatGPT 中,GPT-4o 是默认模型。论文指出,O’Reilly 与 OpenAI 之间并未签署许可协议。
“OpenAI 最新且能力更强的模型 GPT-4o,相比早期模型 GPT-3.5 Turbo,对 O’Reilly 付费书籍内容展现出更强的识别能力……“论文合著者写道,“相比之下,GPT-3.5 Turbo 对公开可获取的 O’Reilly 书籍样本表现出更高的相对识别率。“
该论文采用了名为 DE-COP 的方法(2024 年首次在学术论文中提出),旨在检测语言模型训练数据中的受版权保护内容。这种方法也被称为“成员推理攻击“,通过测试模型是否能可靠区分人类撰写文本与相同文本的 AI 生成改写版本来判断。若模型具备这种能力,则暗示其训练数据中可能预先包含了该文本。
论文合著者——奥莱利、施特劳斯与 AI 研究员斯鲁利·罗森布拉特指出,他们测试了 GPT-4o、GPT-3.5 Turbo 及其他 OpenAI 模型对奥莱利媒体书籍在训练截止日期前后出版内容的掌握情况。通过分析 34 本奥莱利书籍中的 13,962 个段落摘录,他们评估了特定摘录被纳入模型训练数据集的概率。
论文结果显示,即便排除新模型识别人类撰写文本能力提升等干扰因素后,GPT-4o 对付费墙后奥莱利书籍内容的“识别率“仍远高于 OpenAI 旧版模型(包括 GPT-3.5 Turbo)。
合著者写道:“GPT-4o 很可能识别并事先掌握了其训练截止日期前出版的多本非公开奥莱利书籍内容。“
研究者谨慎强调,这并非确凿证据。他们承认实验方法存在漏洞,OpenAI 可能通过用户复制粘贴到 ChatGPT 的方式获取了付费书籍摘录。
更令人困惑的是,合著者们并未评估 OpenAI 最新发布的模型系列,其中包括 GPT-4.5 及“推理”类模型如 o3-mini 和 o1。这些模型可能未基于付费墙后的 O’Reilly 书籍数据进行训练,或训练数据量少于 GPT-4o。
尽管如此,众所周知,OpenAI 长期倡导放宽使用受版权保护数据开发模型的限制,并一直在寻求更高质量的训练数据。
该公司甚至聘请记者协助微调模型输出。这反映了整个行业的趋势:AI 公司招募科学、物理等领域的专家,实质上是让这些专家将知识输入 AI 系统。
需指出的是,OpenAI 至少为部分训练数据支付了费用。该公司与新闻出版商、社交网络、素材库等机构签订了授权协议。OpenAI 还提供了退出机制(尽管不完善),允许版权所有者标记不希望用于训练的内容。
尽管如此,随着 OpenAI 在美国法院就其训练数据实践和版权法处理面临多起诉讼,O’Reilly 的论文并非最光彩的一面。
参考资料
本文翻译自:https://techcrunch.com/2025/04/01/researchers-suggest-openai-trained-ai-models-on-paywalled-oreilly-books/
编译:ChatGPT
(文:Z Potentials)