苹果、NVIDIA、Anthropic因使用YouTube资源训练AI而陷入争议

包括苹果、NVIDIA、Salesforce 和 Anthrophic 在内的大型科技公司在其产品中使用了人工智能技术，它们发现自己陷入了一场新的争议。根据 ProofNews 发布的一份报告，这些公司用于训练人工智能模型的数据集包括来自 YouTube 视频的字幕。

名为"YouTube 字幕"的数据集于 2020 年发布，由 EleutherAI 创建。该出版物发现，数据集包含了从超过 48,000 个频道下载的 173,536 个 YouTube 视频的字幕。

首先，该数据集似乎违反了 YouTube 的条款和条件，即禁止通过"自动化手段"访问视频。据该刊物称，YouTube Subtitles 是一个 5.7GB（4.89 亿字）的训练数据集，其中包括从平台上删除的 12,000 多个视频的字幕。

从 YouTube 上获取的视频转录内容涵盖了众多创作者和频道，包括那些拥有数亿订阅者的频道和那些拥有 10 多万订阅者的频道。

Proof News 还发现了来自 YouTube 巨星的材料，包括 MrBeast（2.89 亿订阅者，拍摄了两段视频用于训练）、Marques Brownlee（1900 万订阅者，拍摄了七段视频）、Jacksepticeye（近 3100 万订阅者，拍摄了 377 段视频）和 PewDiePie（1.11 亿订阅者，拍摄了 337 段视频）。用于训练人工智能的一些材料还宣扬"平地理论"等阴谋论。

YouTube 字幕数据集隶属于一个名为"The Pile"的数据集，其中包括其他几个训练数据集。大多数"堆"数据集都对任何有足够空间和计算能力的人开放。

EleutherAI 的代表没有回应置评请求，也没有就调查结果和未经许可删除视频的指控发表评论。许多创作者也没有回应，而那些回应的创作者则声称，这些视频是在他们不知情的情况下被使用的。

ProofNews 通过搜索网上帖子和白皮书，寻找人工智能公司使用这些数据的证据，并"将数据集中的字幕与 YouTube 上的视频联系起来，以确定谁的创意素材被用于训练人工智能模型"。

不过，由于人工智能公司通常不会披露它们用于训练模型的数据，因此它无法创建一份使用该数据集的公司综合清单。

受影响的创作者之一马克斯-布朗利（Marques Brownlee）写道，他使用付费服务生成 YouTube 转录。"因此，采集转录内容的公司正在以多种方式窃取*付费*工作。这可不好，"他补充说。另一位创作者大卫-帕克曼（David Pakman）在 TikTok 上发现了一个视频，其中包含了他的一个视频的脚本，似乎只有一位评论者认出了这是假的。

请注意，苹果和其他科技公司并不是自己下载了字幕，而是用它训练了人工智能模型。然而，这一行为是人工智能不请自来的后果的一个例子。接受本刊采访的创作者们透露了他们对未来的不确定性，以及人工智能被用来模仿他们内容的可能性。