速度放缓 OpenAI新旗舰模型进步幅度没那么大

11月11日消息，尽管使用聊天机器人ChatGPT等人工智能产品的人数在激增，但支撑这些技术的底层模块的改进速度似乎正在放缓。为此，ChatGPT的开发者OpenAI正在开发新技术，以增强大语言模型等核心模块，从而应对这一挑战。

OpenAI即将推出的旗舰模型“猎户座”（Orion）所面临的挑战突显了公司当前遇到的难题。今年5月，OpenAI首席执行官萨姆·奥特曼（Sam Altman）在内部透露，他预计正在训练中的猎户座将显著优于一年前发布的上一代旗舰模型。据知情人士称，尽管猎户座的训练进度仅完成20%，但其智能和任务完成能力已与GPT-4不相上下。

不过，一些使用或测试过猎户座的OpenAI员工表示，尽管其性能确实超越了前代模型，但提升幅度远不及从GPT-3到GPT-4的跃升。一些研究人员指出，猎户座在处理特定任务时未必稳定优于前代模型。一位员工表示，猎户座在语言任务上表现出色，但在编码等任务中可能不如之前的模型。这种情况可能会带来问题，因为与OpenAI近期发布的其他模型相比，猎户座在数据中心的运行成本更高。

猎户座的表现正在考验人工智能领域的核心假设——缩放定律，即只要数据量和计算能力持续增加，大语言模型就能不断改进。面对GPT改进速度放缓带来的挑战，业界似乎正将重点转向初始训练后的模型优化，这可能会产生一种新的缩放定律。

Facebook母公司Meta首席执行官马克·扎克伯格（Mark Zuckerberg）在内的一些科技领袖认为，即使在技术未能进一步突破的最坏情况下，基于当前技术仍然有很大的开发空间来创建面向消费者和企业的产品。

OpenAI正在应对竞争对手Anthropic的威胁，将更多的代码编写功能嵌入其模型中，并开发能够模拟人类操作计算机的软件，以完成涉及浏览器和应用程序操作的白领任务，如点击、光标移动和文本输入等。

这些产品属于能够执行多步骤任务的AI代理范畴，其革命性可能与ChatGPT的首次发布相当。

扎克伯格、奥特曼及其他人工智能开发者的高管表示，他们尚未触及传统缩放定律的极限。也因此，包括OpenAI在内的公司依旧投资数十亿美元建设数据中心，以尽可能提高预训练模型的性能。

然而，OpenAI研究员诺姆·布朗（Noam Brown）在上月的TEDAI大会上提出警告，认为开发更先进的模型可能在经济上变得不可持续。他表示：“我们真的会投入数千亿甚至万亿美元来训练模型吗？缩放模式在某个时刻会失效。”

在公开发布猎户座之前，OpenAI仍需完成复杂的安全测试。据员工透露，猎户座可能会在明年初发布，并可能放弃传统的“GPT”命名方式，以突显大语言模型改进的新特性。对此，OpenAI发言人未予置评。

数据匮乏成为模型训练的瓶颈

OpenAI的员工和研究人员指出，GPT进步放缓的原因之一在于高质量文本和其他数据的供应日益减少。大语言模型在预训练阶段需要这些数据来理解世界和不同概念之间的关系，以解决如撰写博文或修复编码错误等问题。

近年来，大语言模型主要依赖于网站、书籍等来源的公开文本数据进行预训练，但开发者已几乎耗尽了这类数据的潜力。为此，OpenAI组建了由曾负责预训练的尼克·赖德（Nick Ryder）领导的基础团队，致力于研究如何应对数据短缺问题，并探索缩放定律的持续适用性。

据OpenAI员工透露，猎户座部分使用了由其他OpenAI模型（如GPT-4和最近发布的推理模型）生成的AI数据进行训练。然而，这种合成数据也带来了新问题，可能导致猎户座在某些方面与前代模型过于相似。

OpenAI的研究人员正在利用其他工具，通过改进特定任务的处理方式来优化模型后期的表现。他们采用一种称为强化学习的方法，让模型从大量已正确解决的问题中学习，如数学和编码问题。

此外，研究人员还邀请人类评估员在编码或问题解决任务上测试预训练模型，并对其答案进行评分，这有助于研究人员调整模型，使其在写作和编码等请求上的表现更佳。这一过程称为带有人类反馈的强化学习，也曾帮助过早期的AI模型改进。

OpenAI及其他AI开发商通常依赖初创公司，如Scale AI和Turing，来管理成千上万名承包商，以处理这些评估工作。

OpenAI还开发了一种名为o1的推理模型，该模型在回答前会花费更多时间“思考”训练数据，这一过程称为测试时间计算。这意味着，即使不改变底层模型，给o1分配更多计算资源，也可以持续提高其响应质量。据知情人士透露，即使底层模型改进速度较慢，若OpenAI能保持持续改进，仍然可以实现更好的推理效果。

“这为模型扩展开辟了新维度，”布朗在TED大会上说。他补充道，研究人员可以通过“每次查询成本从1美分提高到10美分”来提升模型响应质量。

奥特曼也强调了推理模型的重要性，认为它可与大语言模型结合使用。“我希望推理能力能够解锁我们多年未能实现的突破，比如让模型在科学研究和复杂代码编写中做出贡献，”奥特曼在一场应用开发者活动中表示。

在最近接受Y Combinator首席执行官陈嘉兴（Garry Tan）采访时，奥特曼透露：“我们基本上知道如何实现通用人工智能——一种能达到人类能力的技术，其中一部分是创造性地运用现有模型。”

数学家和科学家们表示，o1对他们的研究工作有帮助，能作为合作伙伴提供反馈和启发。然而，据两位知情员工透露，由于o1的价格是非推理模型的六倍，因此其客户基础尚未普及。

突破瓶颈，提升推理能力

一些对AI开发商投资数千万美元的投资者疑虑大语言模型的改进速度是否开始趋于平稳。

风险投资家本·霍洛维茨（Ben Horowitz）在YouTube一段视频中表示：“我们正以相同的速度增加训练AI的图形处理单元，但在智能提升方面未见显著改善。”霍洛维茨的风投公司不仅是OpenAI的股东，还投资了Mistral和Safe Superintelligence等竞争对手。

霍洛维茨的同事马克·安德森（Marc Andreessen）在同一视频中指出：“许多聪明人在致力于突破瓶颈，探索如何提升推理能力。”

企业软件公司Databricks联合创始人兼主席伊翁·斯托伊卡（Ion Stoica）表示，大语言模型在某些方面可能已趋于稳定，但在其他领域仍有改进空间。他还开发了一个网站，供应用开发者评估不同的大语言模型。

斯托伊卡称，尽管AI在编码和解决复杂问题上不断进步，但在执行通用任务（如分析文本情感或描述医疗症状）时，进展似乎放缓。

“在常识性问题上，我们似乎看到大语言模型的表现趋于平稳。为实现进一步突破，我们需要更多的事实性数据，而合成数据帮助有限。”