OpenAI发布首款具备推理能力的模型o1 拥有初步的事实查核能力

OpenAI 正在发布一款名为 o1 的新模型，这是计划中的一系列"推理"模型中的第一个，这些模型经过训练，可以比人类更快地回答更复杂的问题。它将与 o1-mini 同时发布，后者是一个更小、更便宜的版本。没错，如果你对人工智能的传言很熟悉的话：这就是被炒得沸沸扬扬的草莓模型。

4D572D8282E2B8E7A1C1C8B657C8BA8892404D9B_size75_w1920_h1081.webp

对于 OpenAI 来说，o1 代表着它向类人人工智能的更广泛目标迈进了一步。更实际的是，它在编写代码和解决多步骤问题方面比以前的模型做得更好。但与GPT-4o 相比，它的成本更高，速度更慢。OpenAI 将这次发布的 o1 称为"预览版"，以强调它的雏形。

ChatGPT Plus 和 Team 用户从今天开始可以访问 o1-preview 和 o1-mini，而 Enterprise 和 Edu 用户将在下周初访问。开发者访问 o1 的费用非常昂贵：在 API 中，o1-preview 每 100 万个输入令牌（即模型解析的文本块）收费 15 美元，每 100 万个输出令牌收费 60 美元。相比之下，GPT-4o 的价格为每 100 万个输入词组 5 美元，每 100 万个输出词组 15 美元。

OpenAI的研究负责人杰里-特沃瑞克（Jerry Tworek）告诉我，o1背后的训练与前代产品有本质区别，不过公司对具体细节含糊其辞。他说，o1"采用了全新的优化算法和专门为其定制的新训练数据集"。

OpenAI 正在培训以前的 GPT 模型模仿训练数据中的模式。在使用 o1 时，OpenAI 利用一种名为"强化学习"的技术训练模型自行解决问题，该技术通过奖惩来教导系统。然后，它使用"思维链"来处理查询，这与人类逐步解决问题的方式类似。

OpenAI 表示，由于采用了这种新的训练方法，模型应该会更加准确。"我们注意到，这个模型产生幻觉的情况减少了，"Tworek 说。但问题依然存在。"我们不能说我们解决了幻觉问题"。这个新模型与 GPT-4o 不同之处主要在于，它能比前代模型更好地处理复杂问题，如编码和数学问题，同时还能解释自己的推理。

OpenAI的首席研究官鲍勃-麦格鲁（Bob McGrew）告诉我："这个模型在解决AP数学考试方面绝对比我强，而我在大学里辅修的是数学。他说，OpenAI 还用国际数学奥林匹克竞赛的资格考试对 o1 进行了测试，GPT-4o 只正确解决了 13% 的问题，而 o1 则达到了 83%。"

"我们不能说我们解决了幻觉问题"

在被称为"Codeforces"的在线编程竞赛中，这种新模型在参赛者中的排名达到了第89位，OpenAI声称，这种模型的下一个更新版本将在"物理、化学和生物学领域具有挑战性的基准任务中取得与博士生类似的表现"。

同时，o1 在很多方面的能力都不如 GPT-4o。它在对世界的实际了解方面做得不够好。它也不具备浏览网页或处理文件和图像的能力。尽管如此，该公司仍认为它代表了一种全新的能力。它被命名为 o1，表示"将计数器重置回 1"。

麦克格鲁说："老实说，我认为我们在传统命名方面做得很糟糕。所以我希望这是我们迈出的第一步，我们会用更新、更理智的名字，更好地向世界其他地方传达我们正在做的事情。"

McGrew 和 Tworek 本周通过视频通话展示了o1。他们要求它解决这个难题："当公主的年龄是王子年龄的两倍时，公主的年龄就是王子年龄的两倍。王子和公主的年龄是多少？请提供该问题的所有答案"。

模型运算了 30 秒钟，然后给出了正确答案。OpenAI 设计的界面可以在模型思考时显示推理步骤。让我印象深刻的并不是它展示了自己的工作--GPT-4o 可以在提示下做到这一点--而是 o1 是如何刻意模仿人类的思维。诸如"我很好奇"、"我正在思考"和"好的，让我看看"这样的句子营造出一种循序渐进的思考假象。

但这个模型不会思考，更不是人类。那么，为什么要把它设计得像人一样呢？

我很好奇"、"我正在思考"、"好的，让我看看"等短语会让人产生一种循序渐进的思考错觉。

Tworek 认为，OpenAI 并不相信人工智能模型的思维等同于人类思维。但他说，该界面旨在展示模型如何花更多时间处理和深入解决问题。"在某些方面，它比之前的模型更有人情味"。

麦克格鲁说："我想你会发现，它有很多让人感觉有点陌生的地方，但也有让人感觉出奇人性化的地方。该模型处理查询的时间有限，因此它可能会说：哦，我没时间了，让我快点找到答案吧。早期，在它的思维链中，它也可能看起来像是在头脑风暴，并会说：我可以做这个或那个，我该怎么做？"

大型语言模型并不完全智能。它们本质上只是根据从大量数据中学到的模式来预测单词序列以提供答案。就拿 ChatGPT 来说，它往往会误认为"草莓"这个词只有两个 R，因为它没有正确地分解这个词。不过，新的 o1 模型已经可以正确地回答这个问题。

据报道，OpenAI希望以令人瞠目的1500亿美元估值筹集更多资金，其发展势头取决于更多的研究突破。该公司之所以将推理能力引入 LLM，是因为它看到了自主系统或代理的未来，它们能够代表你做出决策并采取行动。

对于人工智能研究人员来说，破解推理是迈向人类智能水平的重要一步。他们的想法是，如果一个模型不仅能进行模式识别，还能在医学和工程学等领域实现突破。但目前，o1 的推理能力相对较慢，不像代理，开发人员使用起来也很昂贵。

麦格鲁说："我们已经花了好几个月的时间来研究推理，因为我们认为这实际上是关键性的突破。从根本上说，这是模型的一种新模式，以便能够解决真正困难的问题，从而向人类智能水平迈进。"