OpenAI告诉监管机构：在没有版权材料的情况下训练可用的AI模型是"不可能的"。

人工智能研究人员过去一直安分守己。但现在，OpenAI、微软、Google等公司正在将生成式人工智能商业化，使用受版权保护的训练材料的行为受到了抨击。英国监管机构要求提供相关信息，OpenAI 最近做出了回应。

OpenAI 最近告诉上议院成员，不使用受版权保护的材料来训练大型语言模型（LLM）是"不可能的"。这一说法是对英国通信与数字特别委员会（Communications and Digital Select Committee）的回应，该委员会正在调查涉及当前人工智能系统的法律问题。

目前的消费者应用，如 ChatGPT 和 Dall-E 都是基于 GPT-3 的。自 2018 年以来，OpenAI 已在数十亿份写作、艺术和照片样本上训练了该模型，这些样本大多从互联网上采集而来。今年 3 月，OpenAI 发布了 GPT-4，它使用了一个容量约为 570GB 的文本样本数据集。培训材料中的一些例子包括网站和书籍，毫无疑问，这些都是受保护的作品。然而，版权法远不止书籍和网站。

OpenAI在提交给上议院的呈文中写道："由于当今的版权几乎涵盖了人类的每一种表达方式，包括博客文章、照片、论坛帖子、软件代码碎片和政府文件，因此如果不使用受版权保护的材料，就不可能训练出当今领先的人工智能模型。"

事实上，根据现行版权法，版权甚至无需注册即可受到保护。当创作者将任何知识产权设置为永久性媒体时，它就立即拥有了版权。无论它是数字文件、视频、书籍、博文还是论坛评论，都没有关系。所有版权法均适用。

这个问题在过去几年并不是什么大问题，因为机器学习研究完全是学术性的。训练在很大程度上被认为是合理使用，没有人去打扰研究人员。然而，现在 LLM 开始走向商业化，它们已经进入了合理使用原则的灰色地带。

在极少数情况下，ChatGPT 会"转录"受版权保护的片段，这是一种不折不扣的侵权行为，也是 OpenAI 正在努力消除的一个问题。不过，这个问题与研究人员使用受保护材料训练 LLM 时发生的情况没有直接关系。相反，该系统利用受版权保护或其他作品来学习语言的结构和使用方式，从而创造出人类能够理解的原创内容。

遗憾的是，作为一个新领域，版权法没有关于人工智能训练的法律定义。因此，涉嫌侵权的各方开始向法院提起诉讼。OpenAI和微软等公司表示："不，训练属于合理使用范畴，一如既往。"

OpenAI 在本周的一篇博文中指出："使用公开的互联网资料训练人工智能模型属于合理使用，这一点得到了长期以来广为接受的先例的支持。我们认为这一原则对创造者是公平的，对创新者是必要的，对美国的竞争力也是至关重要的。"

尽管认为合理使用原则涵盖了法律硕士培训，但OpenAI提供了一个简单的退出程序，《纽约时报》在去年8月就使用了该程序。OpenAI 的工具无法再访问《纽约时报》网站，但该报还是在 12 月提起了诉讼。

OpenAI方面表示："我们支持新闻业，与新闻机构合作，但认为《纽约时报》的诉讼毫无根据。"

OpenAI 还面临着几位出版作家的类似诉讼，其中包括知名喜剧演员莎拉-西尔弗曼（Sarah Silverman）。这是一个法院无法单独解决的问题。美国专利商标局和立法者需要明确界定人工智能训练在版权规则中扮演的角色。