[评论]OpenAI的漏洞提醒人们人工智能公司是黑客的宝库

不必担心你的ChatGPT秘密对话会被最近报道的 OpenAI 系统入侵事件获取。这次黑客攻击本身虽然令人不安，但似乎只是表面现象，但它提醒人们，人工智能公司已经在短时间内将自己变成了黑客们的"富矿"。

OpenAI 前员工利奥波德-阿申布伦纳（Leopold Aschenbrenner）最近在播客中暗示了这次黑客攻击，《纽约时报》随后对此进行了更详细的报道。他称这是一起"重大安全事件"，但不愿透露姓名的公司消息人士告诉《纽约时报》，黑客只进入了一个员工讨论区。

任何安全漏洞都不应该被视为小事，窃听 OpenAI 内部开发谈话当然有其价值。但这与黑客获取内部系统、进行中模型、秘密路线图等权限相去甚远。

一个简单的事实是，这些人工智能公司已经成为大量非常有价值数据的守门人。让我们来谈谈 OpenAI 以及其他一些人工智能公司创建或获取的三种数据：高质量训练数据、大量用户交互数据和客户数据。

目前还不清楚他们到底掌握了哪些培训数据，因为这些公司对他们所掌握的数据保密得令人难以置信。但如果认为它们只是一大堆网络数据，那就大错特错了。是的，他们确实使用了网络采集工具或像"堆"这样的数据集，但要将这些原始数据转化为可用于训练 GPT-4o 这样的模型的数据，却是一项艰巨的任务。要做到这一点，需要耗费大量的人力--只能实现部分自动化。

一些机器学习工程师推测，在创建大型语言模型（或任何基于转换器的系统）的所有因素中，最重要的一个因素就是数据集的质量。这就是为什么一个在 Twitter 和 Reddit 上训练出来的模型永远比不上一个在上个世纪所有出版作品上训练出来的模型雄辩的原因。(据报道，OpenAI 在训练数据中使用了版权书籍等有问题的合法来源，而他们声称已经放弃了这种做法）。

因此，OpenAI建立的训练数据集对竞争对手，从其他公司到敌对国家，再到美国国内的监管机构，都具有巨大的价值。难道美国联邦贸易委员会或法院不想知道到底使用了哪些数据，以及OpenAI是否如实披露了这些数据吗？

但也许更有价值的是 OpenAI 巨大的用户数据宝库--与 ChatGPT 就数十万个话题进行的数十亿次对话。就像搜索数据曾经是了解网络集体心理的关键一样，ChatGPT 也掌握着一个群体的脉搏，这个群体可能没有Google用户那么广泛，但却更有深度。(如果您不知道，除非您选择退出，否则您的对话将被用作训练数据）。

就Google而言，"空调"搜索量的上升说明市场正在升温。但是，这些用户并没有就他们想要什么、愿意花多少钱、他们的家是什么样的、他们想要避免的制造商等问题展开讨论。要知道，这一点很有价值，因为Google本身就在试图通过人工智能交互来代替搜索，从而转化用户提供这些信息！

想想看，人们与 ChatGPT 进行了多少对话，这些信息有多有用，不仅对人工智能开发人员有用，对营销团队、顾问、分析师......这简直就是一座金矿。

最后一类数据可能是公开市场上价值最高的数据：客户如何实际使用人工智能，以及他们自己提供给模型的数据。

数以百计的大公司和无数的小公司都在使用 OpenAI 和 Anthropic 的 API 等工具来完成各种各样的任务。为了让语言模型对它们有用，通常必须在它们自己的内部数据库上进行微调，或以其他方式让它们访问自己的内部数据库。

这可能是旧的预算表或人事记录（例如，为了使它们更容易被搜索到）这样平淡无奇的东西，也可能是未发布软件的代码这样有价值的东西。他们如何使用人工智能的功能（以及这些功能是否真的有用）是他们自己的事，但一个简单的事实是，人工智能提供商拥有特权访问权，就像任何其他 SaaS 产品一样。

这些都是行业机密，而人工智能公司突然成为其中的核心。由于人工智能流程尚未标准化，也未被完全理解，因此这个行业的新领域具有特殊的风险。

与任何 SaaS 提供商一样，人工智能公司完全有能力提供行业标准级别的安全、隐私、内部部署选项，并以负责任的态度提供服务。毫无疑问，OpenAI 的财富 500 强客户的私有数据库和 API 调用都被严密封锁！他们肯定也意识到或更清楚在人工智能背景下处理机密数据所固有的风险。(事实上，OpenAI 没有报告这次攻击是他们的选择，但这并不能激发人们对这家迫切需要信任的公司的信任）。

但是，良好的安全实践并不能改变它们所要保护的东西的价值，也不能改变恶意行为者和各种对手正张牙舞爪地想要进入的事实。安全不仅仅是选择正确的设置或保持软件更新，当然这些基本要素也很重要。这是一场永无休止的猫捉老鼠游戏，具有讽刺意味的是，人工智能本身正在为这场游戏注入新的活力：代理和攻击自动程序正在探查这些公司攻击面的每一个角落和缝隙。

我们没有理由恐慌--能够访问大量个人数据或有商业价值数据的公司多年来一直面临并管理着类似的风险。但是，与普通的配置不佳的企业服务器或不负责任的数据经纪人相比，人工智能公司是一个更新、更年轻、更潜在的目标。即使像上述报道的黑客攻击事件，据我们所知并没有严重的数据外泄，也应该让任何与人工智能公司有业务往来的人感到担忧。他们已经成为众矢之的。当任何人，或者说每个人都中招时，不要感到惊讶。