在领先的人工智能实验室之外,大多数新产品开发人员都不是从零开始的。他们从现成的人工智能(如 Meta 的开源语言模型 Llama 2)开始,然后从 GitHub 和 Hugging Face 等在线资源库中寻找数据集,教生成式人工智能系统如何更好地回答问题或总结文本。
尽管这些数据集可免费获取,但根据一项对广泛使用的数据集进行检查的最广泛的研究项目显示,这些数据集充斥着未经授权的数据。
在一群机器学习工程师和法律专家的组织下,"数据出处倡议"(Data Provenance Initiative)研究了用于教授人工智能模型擅长特定任务的专业数据,这一过程被称为"微调"。他们审核了 Hugging Face、GitHub 和 Papers With Code(2019 年加入 Facebook AI)等网站上的 1800 多个微调数据集,发现约 70% 的数据集没有说明应使用何种许可,或者被错误地标注了比其创建者意图更宽松的准则。
能够回答问题和模仿人类说话的聊天机器人的出现,掀起了一场建立更大更好的生成式人工智能模型的竞赛。这也引发了有关版权和合理使用互联网文本的问题,而互联网文本是训练大型人工智能系统所需的海量数据的关键组成部分。
但是,如果没有适当的授权,开发人员就会对潜在的版权限制、商业使用限制或数据集创建者的信用要求一无所知。该倡议报告的共同作者、研究实验室 Cohere for AI 的负责人萨拉-胡克(Sara Hooker)说:"即使人们想做正确的事,他们也做不到。"
麻省理工学院媒体实验室研究大型语言模型的博士生 Shayne Longpre 领导了这次审计,他说,托管网站允许用户在上传数据集时识别许可证,不应该因为错误或遗漏而受到指责。
朗普雷说,缺乏适当的文档是一个源于现代机器学习实践的全社会问题。数据档案经常被多次合并、重新打包和重新授权。他说,试图跟上新版本发布步伐的研究人员可能会跳过记录数据来源等步骤,或者故意模糊信息,以此作为"数据洗钱"的一种形式。
通过互动网站,用户可以探索审计中分析的数据集内容,其中一些数据集已被下载数十万次。
Hugging Face的机器学习和社会团队负责人亚辛-杰尼特(Yacine Jernite)说,Hugging Face发现,数据集在开放、持续使用和共享的情况下,会有更好的文档记录。这家开源公司已将改进文档的工作列为优先事项,例如自动建议元数据。杰尼特说,即使注释不完善,公开可访问的数据集也是提高该领域透明度的有意义的第一步。
一些最常用的微调数据集最初是由OpenAI和Google等公司创建的数据集。越来越多的数据集是利用 OpenAI 模型创建的机器数据集。包括OpenAI在内的领先人工智能实验室禁止使用其工具的输出结果开发竞争性人工智能模型,但允许某些非商业用途。
人工智能公司对用于训练和完善流行人工智能模型的数据越来越保密。这项新研究的目标是让工程师、政策制定者和律师了解助长人工智能淘金热的不可见处的数据生态系统。
这项倡议的提出正值硅谷与数据所有者之间的紧张关系濒临临界点之际。各大人工智能公司正面临着来自图书作者、艺术家和编码员的大量版权诉讼。与此同时,出版商和社交媒体论坛在闭门谈判中威胁要扣留数据。
该倡议的探索工具指出,审计并不构成法律建议。Longpre 说,这些工具旨在帮助人们了解信息,而不是规定哪种许可是合适的,也不是倡导某种特定的政策或立场。
作为分析的一部分,研究人员还跟踪了各数据集的模式,包括数据的收集年份和数据集创建者的地理位置。约 70% 的数据集创建者来自学术界,约 1% 的数据集创建者来自 Meta 等公司的行业实验室。最常见的数据来源之一是维基百科,其次是 Reddit 和 Twitter(现在称为 X)。
《华盛顿邮报》对Google C4 数据集的分析发现,在 1500 万个域名中,维基百科是排名第二的网站。据《邮报》上周报道,Reddit最近威胁说,如果领先的人工智能公司不付费使用其数据来训练模型,就会阻止Google和必应的搜索爬虫,从而面临搜索流量损失的风险。
与英语国家和西欧国家相比,南半球国家的口语几乎没有代表性,数据出处小组的分析为常用数据集的局限性提供了新的见解。
但该小组还发现,即使全球南部有语言代表,数据集"几乎总是来自北美或欧洲的创作者和网络来源",该小组的论文如是说。
胡克说,她希望该项目的工具能够揭示未来研究的主要领域。她说:"数据集的创建通常是研究周期中最不光彩的部分,应该得到应有的归属,因为这需要大量的工作。我喜欢这篇论文,因为它脾气暴够躁,但也提出了解决方案。我们必须从某个地方开始"。