OpenAI希望与机构合作建立新的人工智能训练数据集

用于训练人工智能模型的数据集存在严重缺陷，这已是公开的秘密。图像语料库往往以美国和西方为中心，部分原因是在编制数据集时，西方图像在互联网上占据主导地位。最近，艾伦人工智能研究所（Allen Institute for AI）的一项研究强调，用于训练大型语言模型（如 Meta's Llama 2）的数据包含有毒语言和偏见。

模型会以有害的方式放大这些缺陷。现在，OpenAI 表示希望通过与外部机构合作创建新的数据集来消除这些缺陷，并希望这些数据集能够得到改进。

OpenAI 今天宣布了"数据伙伴关系"（Data Partnerships）计划，该计划旨在与第三方机构合作，建立用于人工智能模型训练的公共和私有数据集。OpenAI 在一篇博文中表示，数据合作伙伴关系旨在"让更多组织能够帮助引导人工智能的未来"，并"从更有用的模型中获益"。

"为了最终制造出安全且有益于全人类的[人工智能]，我们希望人工智能模型能够深入理解所有主题、行业、文化和语言，这就需要尽可能广泛的训练数据集，"OpenAI写道。"将您的内容纳入其中可以增加人工智能模型对您所在领域的理解，从而对您更有帮助。"

OpenAI 表示，作为数据合作伙伴计划的一部分，它将收集"反映全人类社会"的"大规模"数据集，这些数据集目前还不容易在网上获取。该公司计划在包括图像、音频和视频在内的各种模式下开展工作，但它特别希望收集能"表达人类意图"的数据（如长篇写作或对话），这些数据将跨越不同的语言、主题和格式。

6E9B92E7230BF1952B5470A09D023B5EB7E14821_size929_w1738_h1051.webp

OpenAI表示，如有必要，它将与企业合作，使用光学字符识别和自动语音识别工具对训练数据进行数字化处理，并在必要时删除敏感或个人信息。

一开始，OpenAI 希望创建两种类型的数据集：一种是公开的开源数据集，任何人都可以在人工智能模型训练中使用；另一种是私有数据集，用于训练专有的人工智能模型。OpenAI表示，私有数据集的对象是那些希望数据保密，但又希望OpenAI的模型能够更好地理解其领域的组织；到目前为止，OpenAI已经与冰岛政府和Miðeind ehf合作，提高了GPT-4的冰岛语能力，并与自由法律项目合作，提高了模型对法律文件的理解能力。

"总之，我们正在寻求合作伙伴，帮助我们教会人工智能理解我们的世界，以便最大限度地帮助每个人，"OpenAI 写道。

那么，OpenAI 能比之前的许多数据集构建工作做得更好吗？暂时还不太确定--最大限度地减少数据集的偏差是困扰世界上许多专家的难题。至少，希望该公司能对整个过程保持透明--以及在创建这些数据集时不可避免地遇到的挑战。

尽管这篇博文用词华丽，但其中似乎也有明显的商业动机，那就是以牺牲他人利益为代价来提高 OpenAI 模型的性能，而且还不给数据所有者任何补偿。这完全符合 OpenAI 的权利。但考虑到一些创作者的公开信和诉讼，称 OpenAI 在未经他们许可或支付报酬的情况下，用他们的作品训练了许多模型，这似乎有点听不进去。