OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型

据《纽约时报》报道，OpenAI 和Google利用从 YouTube 视频中转录的文本训练人工智能模型，这可能侵犯了创作者的版权。该报道引述了许多了解这些公司做法的人士的话，描述了 OpenAI、Google和 Meta 为最大限度地向其人工智能提供数据所做的努力。

就在几天前，YouTube 首席执行官尼尔-莫汉（Neal Mohan）在接受彭博社采访时表示，OpenAI 据称使用 YouTube 视频来训练其新的文本到视频生成器 Sora 将违反该平台的政策。

据《纽约时报》报道，OpenAI 使用其 Whisper 语音识别工具转录了超过 100 万小时的 YouTube 视频，然后用于训练 GPT-4。The Information此前曾报道，OpenAI 曾使用 YouTube 视频和播客来训练这两个人工智能系统。

据报道，OpenAI 总裁格雷格-布罗克曼（Greg Brockman）也是这个团队的成员之一。Google发言人马特-布莱恩特（Matt Bryant）告诉《纽约时报》，根据Google的规定，"未经授权采集或下载 YouTube 内容"是不被允许的，同时他还表示，公司并不知道 OpenAI 使用过此类内容。

不过，该报道称，Google有人知道但没有对 OpenAI 采取行动，因为Google自己也正在使用 YouTube 视频训练自己的人工智能模型。但Google告诉《纽约时报》，它只使用同意参加实验项目的创作者的视频。

《纽约时报》的报道还称，Google在 2022 年 6 月调整了其隐私政策，以更广泛地涵盖使用公开内容（包括Google文档和Google工作表）来训练其人工智能模型和产品。布赖恩特告诉《纽约时报》，只有在选择使用Google实验功能的用户允许的情况下，Google才会这样做，而且该公司"并没有根据这一语言变化开始对其他类型的数据进行训练"。