科技公司训练 AI 模型时,似乎一切都是公平的。例如,Google利用 YouTube 上数十亿个视频来训练 Gemini 和 Veo 3,而许多创作者对此毫不知情。YouTube 平台上有超过 200 亿个视频,对于人工智能公司来说,它是一个可供利用的数据宝库——而且许多公司已经这样做了。
据CNBC报道,YouTube 所有者Google也在利用这些内容来训练其人工智能模型。该公司后来证实确实这样做,但只使用一小部分视频,并且遵守与创作者和媒体公司达成的特定协议。
YouTube 发言人在一份声明中表示:“我们一直在利用 YouTube 内容来改进我们的产品,人工智能的出现并没有改变这一点。”
YouTube 承认需要在此领域采取保障措施,因此它投资了保护措施,以允许创作者保护他们的形象和肖像。
但许多专家指出,大多数创作者和公司并不知道Google正在利用他们的内容训练其模型。而且,人们也无法选择不让自己的作品被如此使用。
报告指出,YouTube 视频库的规模意味着,即使只有 1% 的视频用于训练目的,也相当于 23 亿分钟的内容,专家表示,这比竞争对手的 AI 模型使用的训练数据多 40 多倍。
自从Google宣布推出能够制作极其逼真的视频片段的Veo 3视频模型以来,这种情况变得更加重要。与许多行业一样,讽刺的是,人们创作的内容正被用来训练人工智能,而这种人工智能最终可能会取代他们,或者至少在竞争激烈的市场中影响他们的收入。
一些创作者持有不同的观点;他们正在使用或计划使用 Veo 3 来创作内容,即使它已经在他们自己的原创作品上进行过训练。
也有一些公司在未经创作者知情的情况下利用 YouTube 训练其 AI 的案例。去年有报道称,OpenAI转录了超过一百万小时的 YouTube 视频,用于训练其法学硕士 (LLM)。NVIDIA 也做了同样的事情,一度每天抓取长达 80 年的视频——该公司辩称这符合“版权法的精神”。Anthropic、苹果和 Salesforce 也都从 YouTube 获取AI 训练数据。
Google现在允许创作者选择退出亚马逊和 NVIDIA 等人工智能公司的第三方培训,但没有办法阻止Google这样做。