读书破万卷法庭文件显示Anthropic为训练AI损坏了数百万本实体书籍

生成式人工智能早已因其众所周知的可靠性问题、巨大的能耗以及未经授权使用版权资料而饱受诟病。如今，最近的一起法庭案件揭露，训练这些人工智能模型还涉及大规模销毁实体书籍。

在最近一项针对 Anthropic 的判决中隐藏着一个令人惊讶的细节：这家人工智能生成公司为了训练其人工智能助手，销毁了数百万本实体书籍，包括剪掉装订线并丢弃残骸。值得注意的是，此次销毁行为被认为是法院最终判决 Anthropic 胜诉的一个因素。

为了构建其语言模型和 ChatGPT 竞争对手 Claude，Anthropic 用尽可能多的书籍进行训练。该公司购买了数百万本实体书，并通过撕下和扫描页面进行数字化，在此过程中永久销毁了这些书籍。

此外，Anthropic 并未计划公开发布最终的数字版本。这一细节有助于说服法官，数字化和抓取书籍构成了充分的转化，符合合理使用的规定。虽然 Claude 可能使用数字化图书馆来生成独特的内容，但批评人士指出，大型语言模型有时可以根据其训练数据逐字复制内容。

Anthropic 的部分法律胜利使其能够在无需通知原出版商或作者的情况下，利用受版权保护的书籍训练 AI 模型，这或将消除生成 AI 行业面临的最大障碍之一。Metal 的一位前高管最近承认，如果被要求遵守版权法，AI 将在一夜之间消亡，这可能是因为开发人员将无法访问训练大型语言模型所需的海量数据。

然而，持续不断的版权纠纷仍然对这项技术构成重大威胁。本月早些时候，Getty Images 首席执行官承认，公司无力承担所有与 AI 相关的版权侵权行为的打击。与此同时，迪士尼对 Midjourney 的诉讼——该公司在诉讼中展示了图像生成器复制受版权保护内容的能力——可能会对更广泛的生成 AI 生态系统产生重大影响。

话虽如此，Anthropic案的法官确实判决该公司败诉，因为该公司部分依赖盗版图书库来训练克劳德。Anthropic仍需在12月面临版权审判，届时该公司可能被要求为每部盗版作品支付高达15万美元的赔偿金。