目前人工智能的热潮导致大量公司需要通过互联网抓取海量数据进行训练,尽管最终需要使用数据都是文本,但 YouTube 这个视频内容宝库也在抓取范围内。
AI 公司可以抓取 YouTube 视频后将其音频抽出并转录为文本内容,这些文本内容也就是成了训练数据集,当然这种操作也是违反 YouTube 使用协议的。
对于未经谷歌授权的情况下擅自抓取 YouTube 视频并进行各种用户都是违反使用协议的,不知道谷歌出于哪方面的考虑,现在为视频创作者 / 内容发布者提供新选项可设置允许 AI 公司抓取数据进行训练。
理论上说这个选项没有太大的实际意义,因为默认情况下不是允许抓取的,而大多数视频创作者 / 内容发布者不太可能会主动去设置允许 AI 公司抓取数据。
不过 AI 抓取控制选项也有限制:
视频的版权所有者主动允许第三方进行抓取训练
视频的隐私设置为公开,即可以公开访问
视频符合 YouTube 的服务条款和社区准则
满足以上条件后创作者可以授权包括 xAI、Apple、Amazon、Anthropic、Meta、Microsoft、Nvidia、OpenAI 等公司使用这些视频训练 AI 模型。
未来这类视频或其他数据可能也会发展成专门的交易,比如 OpenAI 向创作者支付相关费用后,创作者再授权 OpenAI 抓取数据进行训练,或许谷歌现在提供这个功能也是在为未来做准备吧。