生成式人工智能(如 OpenAI 的 ChatGPT)正在改变机器学习的面貌,从简单的预测模型转变为能够创建新的现实数据的复杂系统。麻省理工学院的专家重点介绍了生成式人工智能的历史背景、深度学习架构的进步和广泛应用。
像 ChatGPT 这样强大的生成式人工智能系统是如何工作的,它们与其他类型的人工智能有何不同?
快速浏览一下头条新闻,就会发现生成式人工智能如今似乎无处不在。事实上,有些头条新闻可能真的是由生成式人工智能撰写的,比如 OpenAI 的 ChatGPT,它是一个聊天机器人,展示了一种不可思议的能力,可以生成看似由人类撰写的文本。
但是,当人们说"生成式人工智能"时,到底是什么意思呢?
在过去几年的生成式人工智能热潮之前,人们在谈论人工智能时,通常是在谈论机器学习模型,这些模型可以学会根据数据进行预测。例如,这种模型通过数百万个实例的训练,可以预测某张 X 光片是否显示出肿瘤迹象,或者某个借款人是否有可能拖欠贷款。
人们说"生成式人工智能"是什么意思?为什么这些系统似乎正在进入几乎所有可以想象到的应用领域?麻省理工学院的人工智能专家将为您解析这项日益流行、无处不在的技术的来龙去脉。资料来源:Jose-Luis Olivares,麻省理工学院
生成式人工智能(Generative AI)可以被认为是一种机器学习模型,它被训练来创建新数据,而不是对特定数据集进行预测。生成式人工智能系统可以学习生成更多与训练数据相似的对象。
"说到生成式人工智能和其他类型人工智能的实际基础机器,它们之间的区别可能有点模糊。"麻省理工学院电子工程与计算机科学副教授、计算机科学与人工智能实验室(CSAIL)成员菲利普-伊索拉(Phillip Isola)说:"很多时候,同样的算法可以用于这两种人工智能。"
历史背景与模型复杂性
尽管 ChatGPT 及其同类产品的发布引起了热议,但技术本身并不是全新的概念。这些强大的机器学习模型借鉴了 50 多年前的研究和计算进展。
生成式人工智能的早期范例是一种被称为马尔科夫链的简单得多的模型。该技术以俄罗斯数学家安德烈-马尔科夫(Andrey Markov)的名字命名,他于 1906 年引入了这种统计方法来模拟随机过程的行为。在机器学习中,马尔可夫模型长期以来一直被用于下一个单词的预测任务,如电子邮件程序中的自动完成功能。
在文本预测中,马尔科夫模型通过查看前一个词或前几个词来生成句子中的下一个词。麻省理工学院电气工程与计算机科学托马斯-西贝尔(Thomas Siebel)教授托米-雅科拉(Tommi Jaakkola)说,但由于这些简单的模型只能回溯那么远,因此它们并不擅长生成可信的文本,他同时也是 CSAIL 和数据、系统与社会研究所(IDSS)的成员。
他解释说:"在过去十年前,我们就已经在生成内容了,但现在的主要区别在于我们可以生成的对象的复杂性以及我们可以训练这些模型的规模。"
就在几年前,研究人员往往专注于寻找一种能最好地利用特定数据集的机器学习算法。但现在,研究重点发生了一些变化,许多研究人员开始使用更大的数据集(可能有数亿甚至数十亿个数据点)来训练模型,从而取得令人瞩目的成果。
最近人工智能研究的重点转移
ChatGPT 和类似系统的基础模型与马尔可夫模型的工作方式基本相同。但一个最大的区别是,ChatGPT 的规模更大、更复杂,拥有数十亿个参数。而且它是在海量数据的基础上训练出来的--在这种情况下,海量数据就是互联网上的大部分公开文本。
在这个庞大的文本语料库中,单词和句子以具有一定依赖性的序列出现。这种递归性有助于模型理解如何将文本切割成具有一定可预测性的统计块。它可以学习这些文本块的模式,并利用这些知识提出下一步可能出现的内容。
深度学习架构的进步
虽然更大的数据集是催生人工智能热潮的催化剂之一,但各种重大研究进展也带来了更复杂的深度学习架构。
2014 年,蒙特利尔大学的研究人员提出了一种称为生成对抗网络(GAN)的机器学习架构。GAN 使用两个协同工作的模型: 一个学会生成目标输出(如图像),另一个学会从生成器的输出中分辨真实数据。生成器试图欺骗鉴别器,并在此过程中学会生成更真实的输出。图像生成器 StyleGAN 就是基于这类模型。
一年后,斯坦福大学和加州大学伯克利分校的研究人员引入了扩散模型。通过迭代改进输出,这些模型学会生成与训练数据集中的样本相似的新数据样本,并被用于创建逼真的图像。扩散模型是文本到图像生成系统"稳定扩散"的核心。
2017 年,Google的研究人员推出了转换器架构,该架构已被用于开发大型语言模型,如为 ChatGPT 提供动力的模型。在自然语言处理中,转换器将文本语料库中的每个单词编码为一个标记,然后生成一个注意力图,该图捕捉每个标记与所有其他标记的关系。当转换器生成新文本时,该注意图有助于转换器理解上下文。
以上只是可用于生成式人工智能的众多方法中的一小部分。
生成式人工智能应用
所有这些方法的共同点是,它们都能将输入转换为一组词块,即数据块的数字表示。只要你的数据可以转换成这种标准的标记格式,那么理论上,你就可以应用这些方法生成类似的新数据。
伊索拉说:"具体情况可能会有所不同,这取决于数据的嘈杂程度和信号提取的难度,但它确实越来越接近通用 CPU 接收任何类型数据并开始统一处理的方式。"
这为生成式人工智能开辟了大量的应用领域。例如,伊索拉的研究小组正在利用生成式人工智能创建合成图像数据,这些数据可用于训练另一个智能系统,比如教计算机视觉模型如何识别物体。
Jaakkola 的研究小组正在利用生成式人工智能设计新的蛋白质结构或有效的晶体结构,以指定新的材料。他解释说,生成模型学习语言依赖关系的方式与此相同,如果给它展示晶体结构,它就能学习到使结构稳定和可实现的关系。
不过,虽然生成模型可以取得令人难以置信的结果,但并不是所有类型数据的最佳选择。麻省理工学院电子工程与计算机科学安德鲁-维特比和埃尔纳-维特比教授、IDSS 和信息与决策系统实验室成员德瓦夫拉特-沙阿(Devavrat Shah)说,对于涉及对结构化数据(如电子表格中的表格数据)进行预测的任务,生成式人工智能模型的表现往往会优于传统的机器学习方法。
"在我看来,它们的最高价值在于成为人类友好的机器界面。以前,人类必须用机器的语言与机器对话,才能使事情发生。现在,这个界面已经知道如何与人类和机器对话了。"
挑战和伦理考虑
生成式人工智能聊天机器人目前正被用于呼叫中心,回答人类客户的问题,但这种应用凸显了实施这些模型的一个潜在风险--工人失业。
此外,生成式人工智能可能会继承和扩散训练数据中存在的偏见,或放大仇恨言论和虚假陈述。这些模型具有剽窃能力,可以生成看起来像是由特定人类创作者制作的内容,从而引发潜在的版权问题。
另一方面,沙阿提出,生成式人工智能可以增强艺术家的能力,他们可以使用生成式工具来帮助他们制作创意内容,否则他们可能没有办法制作这些内容。
生成式人工智能的未来
在未来,他认为生成式人工智能将改变许多学科的经济学。
伊索拉认为,生成式人工智能的一个前景广阔的未来方向是用于制造。与其让模型制作椅子的图像,也许它可以生成一个可以生产的椅子计划。他还认为,生成式人工智能系统未来还可用于开发更普遍的智能人工智能代理。
"这些模型的工作方式与我们认为的人脑工作方式存在差异,但我认为也有相似之处。我们有能力在头脑中思考和梦想,提出有趣的想法或计划,我认为生成式人工智能是一种工具,它将使代理也能做到这一点,"伊索拉说。