
将作品投喂给生成式AI模型训练,是否要经过版权方的授权?当地时间6月23日,美国加州北区地方法院为这一争论不休的难题给出明确意见:大模型公司未经过许可使用图书来训练AI模型,属于版权法上的合理使用;但在数据采集阶段,必须确保来源合法,才能避免担责。
案件由多位作家联合提起,被告为OpenAI的强势竞对Anthropic。有美国媒体分析称,加州地方法院的这份裁决可能为类似纠纷树立重要先例。目前,OpenAI、Meta、Midjourney等诸多大模型厂商正面临训练数据侵权的指控。
而在中国,四位画师起诉某大模型开发公司的案件仍在北京互联网法院审理。北京大学法学院教授易继明在一篇论文中透露,2024年12月,北京互联网法院曾就该案组织法学和经济学专家进行过研讨,但研讨会上并未得出共识性的结论。

Anthropic由OpenAI前员工于2021年创立,向公众提供名为Claude的AI聊天产品。
根据司法文书,Anthropic建立了一个专门的图书数据库,目的之一是训练模型。数据库的电子图书有两大来源:一方面,从盗版网站免费下载了超过七百万本受版权保护的电子书;另一方面,Anthropic还花费数千万美元购买了数百万本纸质书籍,其中一些与从盗版网站获取的图书重复。购买后,Anthropic公司撕掉图书装订,将书页裁剪成标准尺寸,再将其扫描保存为PDF副本,而纸质图书随后被丢弃。
模型训练阶段,Anthropic会从图书数据库中选取特定的作品,组成训练数据集副本,再对该数据集进行“清洗”和“词元化”(tokenize)处理。一些未被用于模型训练的电子图书,仍被留存起来,用于未来的其他用途。
三名原告作者的作品,则包含在这些盗版或采购的图书当中。2024年8月,三位作者以侵犯版权为由提起集体诉讼,指控Anthropic非法复制使用他们的书籍和其他数十万本书来训练Claude。

Anthropic案的司法文书截图
值得一提的是,Claude并未直接输出和图书原文一模一样的内容,因此该案的争议点,并不涉及模型生成内容的侵权问题,仅仅与训练阶段的复制使用图书作品是否侵权有关,亦即法官所归纳的:Anthropic对作品的使用,在多大程度上属于美国版权法所规定的“合理使用”?按法律规定,若落入合理使用的范畴,使用某部作品则无需经过权利人授权并向其付费。

裁决中,法院把Anthropic对图书的使用拆分为两类独立行为,分别予以评判:其一,使用特定图书数据集训练大模型;其二,将海量图书组建成图书数据库,其中又包括合法采购的图书并数字化的行为,以及从盗版网站上获得电子图书的行为。
按照美国版权法的规定,判断某一使用行为是否构成合理使用,通常依次考察四项要件:使用目的和性质、作品的性质、使用比例及其对市场的影响。基于这一分析原则,加州北区地方法院逐一论证Anthropic是否构成侵权。
针对使用的目的和性质,审理法官认可利用图书训练大模型的行为属于典型的“转换性使用”(transformative use)——亦即用于训练特定模型的数据集副本,和原作品相比出现本质上的区别。
“就像一个有抱负的写作者阅读大量书籍,不是为了抄袭或替代原作品,而是为了开辟新路,创作不同作品。Anthropic的大模型亦复如此。”法官甚至感慨,“涉案技术是我们有生之年所能见到的最具转换性的技术之一。”
在肯定模型训练用途合法的同时,法院还就搭建图书数据库的行为合法性予以评判——依据其获取方式是购买还是盗版:
-
合法来源情形下,Anthropic以正当方式购买了纸质图书并将其转为数字格式,目的是节省存储空间与提高可搜索性,这仅仅变更了作品的物理属性,属于合理使用。而且并无证据表明,这些电子图书副本曾被分享或出售给公司外部人员。
-
非法来源情形中,不能因为其中的一些盗版图书副本会被用于模型训练,就使得复制盗版图书搭建数据库的行为被合法化。“只要盗取获取本可合法获取的内容,这种行为就是侵权,即便下载后立即用于转换性用途并随后删除也是如此”。而且,即使后来补购了相同作品的正版图书副本,也无法抵消其侵权造成的损害。
关于受版权保护作品的性质,鉴于原告的所有图书包含表达性元素,没有争议,法院认可这一要件对原告有利,未作过多阐述。
而针对使用内容占比这项要件,法院指出,Anthropic的确复制了整部作品,但版权法所排斥的复制行为,必须起到与原作品相同的用途。此案中,普通图书与模型训练用途的图书副本,二者用途完全不同。
不过,法院同样就复制盗版图书副本这一行为强调,Anthropic根本无权持有这些图书的任何副本。
最后,法院就是否产生替代性效应这项要件考察说,用于训练大模型的图书副本并未、也不会取代公众对原告作品的需求。理由依然是,Anthropic的模型训练行为并未使得原告作品被完整地提供给公众。
原告对此进一步主张,训练模型的作品使用行为,将波及作者把自身作品授权给大模型公司的市场收益。法院对此承认,确实存在这样一个商业许可市场的可能性,但即便如此,这种模型训练用途的许可市场,不是版权法赋予原告有权控制或垄断的领域。
至于通过盗版渠道获得图书来构建数据库的做法,法院称这显然直接取代了对原告图书的市场需求。
总结而言,将特定图书副本用于大模型训练,属于合理使用;将购买所得的图书转换为数字格式的行为,亦被认可为合理使用;但下载盗版图书用以搭建数据库的做法,不属于合理使用。法院将于后续确定Anthropic应承担的侵权赔偿金额。
(文:AI前哨站)