OpenAI 的预测输出功能可将 GPT-4o 模型的输出速度提高 5 倍

对于大多数 LLM 相关用例而言，延迟都是一个重要问题。对于代码建议和修改长文档等情况，延迟更是影响整体用户体验。想象一下，用户想要重写一份 2 页文档的最后一段。如果改写后的文档能立即出现是更为合理的，因为改动只涉及一个段落。然而，目前的 LLM API 需要重新生成整个文档，这给用户带来了很大的延迟。

OpenAI 目前正试图通过一项名为预测输出的新开发人员功能来解决这一问题。在 LLM 的大部分输出已经提前知晓的情况下，可以使用该功能。编辑文档或重构代码等任务都可以使用此功能进行改进。预测输出使用推测解码来跳过已知内容，使迭代速度大大加快。

开发人员可以将现有内容作为预测内容传入，从而大大减少延迟。通过这种方式，他们可以更快地重新生成整个内容。

OpenAI 与一些外部合作伙伴一起测试了这一功能，结果非常积极。例如，根据微软 GitHub 团队的内部基准测试，Copilot Workspace 工作负载中的预测输出速度提高了 5.8 倍。

感谢@openaidevs！我们在 Copilot Workspace 工作负载上对其进行了基准测试，测得速度提高了 5.8 倍！ https://t.co/FOCwYJheUc
- Eddie Aftandilian (@eaftandilian) 2024 年 11 月 4 日

预测输出非常快。我们与@openai合作，帮助测试和改进 API，从中获得了很多乐趣。注册获得 Exponent 的早期访问权限并亲自试用： https://t.co/eC3XD4F3Iw https://t.co/1jUzMEARCC
- Exponent (@exponent_run) November 4， 2024

要使用"预测输出"，开发人员会受到一些限制。首先，它只支持 GPT-4o 和 GPT-4o-mini 系列机型。不支持最新的 o1 型号。此外，在使用预测输出时，不支持以下现有 API 参数：

n values greater than 1
logprobs
presence_penalty greater than 0
frequency_penalty greater than 0
audio options
modalities other than text
max_completion_tokens
tools - function calling is not supported

在提供预测时，所提供的词元如果不是 API 最终完成的一部分，则按完成词元费率收费。虽然存在一些限制，但这项新的预测输出功能的潜在优势是巨大的，它为更灵敏、更高效的 LLM 工具铺平了道路。