尼尔森旗下的元数据与内容识别服务公司 Gracenote 已在美国纽约南区联邦法院对 OpenAI 提起诉讼,指控这家人工智能公司在未经授权、未支付任何费用的情况下,大规模抓取并使用其媒体元数据库及独特的数据关联框架,用于训练支撑 ChatGPT 等商业产品的大型语言模型,构成严重版权侵权并危及其核心业务。

Gracenote 在诉状中称,其多年来依靠数百名编辑,对全球范围内的影视、音乐和体育内容进行人工编辑和标注,建立起包含节目简介、视频特征描述、唯一内容标识符以及复杂关系图谱的“节目数据库”,并已在美国版权局完成登记。 公司认为,这一数据库不仅包含具体的文字内容,还包括对不同作品进行分类、关联和组织的专有结构设计,这一“关系框架”是其向流媒体平台、智能电视厂商等企业客户提供服务的重要价值来源。
诉状指出,OpenAI 在未获许可的情况下抓取并吸收了上述数据,并在用户通过 ChatGPT 提问时,以近乎逐字的方式输出与 Gracenote 节目简介高度相似甚至完全一致的描述。 Gracenote 提供的示例包括,当用户要求 ChatGPT 描述热门美剧《权力的游戏》时,模型给出的内容与 Gracenote 编辑撰写的版本几乎完全相同。 公司还称,在极少提示词的情况下,ChatGPT 的多个版本都能复述出其数据库中大段节目说明,这表明相关文本及其底层组织结构已被直接复制并嵌入模型之中。
Gracenote 提出,OpenAI 对其元数据和关系框架的未经授权使用,不仅侵犯了受版权保护的文本和数据库结构,还为媒体内容分发商和设备厂商提供了以“免费爬取数据”为基础构建替代性元数据服务的可能,从而直接削弱 Gracenote 同类产品的市场竞争力。 诉状警告,若此类行为得不到制止和救济,智能电视等终端厂商完全可以依赖经由 AI 模型“反推出”的数据,自行搭建与 Gracenote 竞争的元数据平台,而无须支付任何许可费用。
在索赔方面,Gracenote 依据其数据库已在美国版权局登记的事实,除要求赔偿实际损失外,还寻求法定损害赔偿,以应对其所称的持续性、规模化侵权行为。 所谓法定损害赔偿,是指针对特定类型版权侵权行为,法律预先规定的固定或区间金额,而实际损害赔偿则用来补偿权利人因侵权遭受的现实经济损失。
OpenAI 发言人在回应 Axios 采访时表示,其模型“赋能创新”,训练基于“公开可获得的数据”,并以“合理使用”为依托。 包括 OpenAI 在内的多家 AI 公司一贯主张,抓取互联网公开内容训练模型符合美国现行版权法下对合理使用的认定,理由是这些数据通过模型转化后可为用户提供新的、有用的服务和信息。
Gracenote 此番起诉引人关注的另一原因在于,该公司此前一直对与 AI 企业合作持开放态度,已与三星、Google等公司达成过多项 AI 相关数据授权协议。 Gracenote 在诉状中称,其多次主动联系 OpenAI 商谈授权事宜,却“在较长时间内被一再拒绝或忽视”,因此不得不通过诉讼方式维护自身权益。 公司首席执行官 Jared Grusd 在声明中强调,“支持 AI 发展与反对窃取并不矛盾,二者才是产业可持续发展的唯一道路”,称此次诉讼旨在保护这一未来。
法律界人士认为,在媒体与信息公司与 AI 企业之间已有多起版权纠纷等待法院裁决的背景下,此案很可能成为法官审视数据库结构、元数据关联图谱等“非传统作品”能否获得版权保护以及如何认定“大模型合理使用边界”的重要参照。 Gracenote 在诉状中强调,OpenAI 输出的许多内容与其向客户授权的元数据“近乎完全相同”,因此并非衍生出新的信息,而是对既有内容的实质性复制,这一点将成为本案与其他 AI 版权案件相区别的关键争议点之一。