最新研究揭示AI数据之殇:“西方中心”数据加剧模型偏见

摘要:

相比LLM和Agent领域日新月异、高度成熟的进展相比,数据收集方面的规范有明显滞后。由超过50名研究人员组成的“数据溯源计划”(DPI)旨在回答这样一个问题:AI训练所需的数据究竟来自何处?

“AI就是数据”,这句话想必已经成为了业内的共识。

当前的算法需要海量数据进行训练,我们喂给模型的内容决定了它的行为和结果。但问题是:AI领域的开发者和研究人员并不真正了解这些数据的来源。

与模型开发的复杂性相比,人工智能领域的数据收集实践还不成熟,很多数据集都无法给出内容及其来源的明确信息。

成立于2024年的Data Provenance Initiative就想要解决这个问题——构建AI模型的数据集究竟来源何处。这是一个志愿者团体,由来自世界各地的AI学术界和工业界的50多名研究人员组成。

他们审核的近4000个公共数据集中,涵盖了67个国家、近700个组织、600多种语言,含有约800种数据来源,时间跨度长达三十年。

DPI的研究结果呈现出一种令人担忧的趋势:AI领域的数据存在着“垄断”倾向,绝大部分权力正逐渐集中到少数几个科技巨头的手中。


01 LLM数据来源之变

时间回溯到2010年代初,当时的数据集还会涵盖多种来源,不仅有百科全书和网络,还有议会记录、财报电话、天气预报等。

参与项目的MIT研究员Shayne Longpre表示,这是因为当时的数据集是为个别任务构建的,要专门从不同来源收集和整理。


2017年,Transformer横空出世,虽然Scaling Law还要几年后才提出,但这就已经标志着我们开始迈进了“大模型”时代,数据集越大、模型参数量越大,就会有更好的性能。

它不仅来自百科全书和网络,还来自议会记录、财报电话和天气预报等来源。隆普雷说,当时,人工智能数据集是专门从不同来源收集和整理的,以适应个别任务。

从2018开始,网络就一直是所有媒介数据(包括音频、图像和视频)的主要来源;如今,大多数AI数据集都是通过不加区别地从互联网上爬取材料构建的,抓取数据和精心策划的数据集之间存在着显著且逐渐扩大的差距。


Longpre表示,对基座模型的能力而言,似乎没有什么比互联网及数据的规模和异构性更重要了。对规模的需求也促进了合成数据的大量使用。

除了语言模型,过去几年中我们也见证了多模态GenAI的兴起,比如各种图像和视频的生成模型。和LLM类似,这些模型也需要尽可能多的数据。

正如下表所示,视频模型的语音和图像数据集中,超过70%的数据都来自同一个来源YouTube。


这对于拥有YouTube平台的Google和母公司Alphabet来说可能是天大的利好。文本数据是分布在整个互联网上的,且由许多不同的网站和平台控制,但对于视频数据,权力竟如此集中地掌握在一家公司手中。

AI Now Institute联合执行董事Sarah Myers West表示,由于Google也在开发自己的人工智能模型(例如Gemini),其巨大的优势也引发了人们的疑问:Google将如何向竞争对手提供这些数据。

更深一层,如果我们所交互的大多数AI数据集都是在反映以利润为导向的科技巨头的意图和设计,那么这也会不可避免地作用到其他方面,这些大公司会以符合自己利益的方式重塑我们世界的基础设施。

DPI计划的另一位成员Sara Hooker从另一个角度提出了担忧:单一数据来源造成的偏差和失真。

博主们将视频上传到YouTube时会考虑到特定的受众群体,视频中的内容也通常是为了达到特定的效果。那么,这些视频能否捕捉到人性中的细微之处,以及各种不同的生活和行为方式?

举个简单的例子,比如你是一个想了解中国的歪果仁,能否通过影视剧、小视频和短剧,学习到中国人的性格、行为和处事方式呢?

02 隐藏起来的数据集

虽然许多科技公司都会选择发布部分模型的代码甚至权重,但几乎很少公开训练数据。原因之一是保护竞争优势,但实际上还有另一个原因:由于数据集捆绑、打包和分发的方式复杂且不透明,他们甚至可能也说不清数据来源。

此外,关于使用和共享数据的限制,发布这些模型的公司可能也没有完整信息。DPI的研究人员发现,数据集通常附加有限制性许可或条款,比如限制其用于商业目的等。


如图所示,文本、语音和视频数据集分别有25%、33%和32%明确发布了非商业许可,这意味着它们可以用于学术或个人创意,但不能用于商业盈利

数据集之间的集成和沿袭缺乏一致性,这使得开发人员很难对使用哪些数据做出正确的选择,也几乎不可能百分百保证,模型训练过程中完全没有使用过受版权保护的数据。

最近,OpenAI和Google等公司与出版商、Reddit等主要论坛以及网络社交媒体平台达成了独家数据共享协议,但这却成了他们集中权力的另一种方式。

数据集方面这一趋势有利于AI领域的那些最大玩家,他们有足够的财力进行数据交易,但却牺牲了学术界的研究人员、非营利组织和小公司的利益。

可以说,这些具有排他性质的数据共享协议会将互联网划出不同的区域,是一波新的“非对称访问”浪潮,且已经达到了开放网络上我们前所未见的程度。

03 西方国家 vs. 其他地区

这项研究中还证实了另一件事:用于训练AI模型的数据也严重偏向西方世界。研究人员分析的数据集中,超过90%来自欧洲和北美,却只有不到4%来自非洲。


Hugging Face首席伦理学家Giada Pistilli表示,英语之所以在训练数据中占据主导地位,部分原因是,互联网中90%以上的内容仍然是英语;另一个原因是方便:将其他语言的数据集放在一起并考虑其他文化,这需要进行更大量的数据工作,以及开发人员有意识的意图。

通过多模态模型的输出,我们可以更明显地感受到这些数据集是如何以西方文化为焦点的。例如,如果提示AI模型生成婚礼的景象和声音,可能只能得到西式婚礼相关的内容,因为训练数据就是如此。

数据集代表了人类社会中的偏见,而经过这些数据训练后的模型又加剧了偏见,并可能导致AI模型推动某种以美国为中心的世界观,同时不经意间抹去其他语言和文化。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan