OpenAI 宣布对 Codex 和语音代理工具进行重大更新
OpenAI 除了每天为数亿用户提供 ChatGPT 体验外,还致力于为开发者提供 AI 应用开发平台。OpenAI 之所以受到开发者的青睐,不仅因为其尖端的模型,还因为其强大的工具和对开发者的支持。OpenAI 今天宣布了两项面向开发者的重要更新。首先是关于OpenAI 软件工程代理Codex的。
OpenAI 现已向 ChatGPT Plus 用户开放 Codex。在限定时间内,ChatGPT Plus 用户将享有慷慨的使用限制,但在高需求时段,OpenAI 会对其使用量进行限制。
Codex 现在可以连接到互联网来安装依赖项、升级软件包、运行需要外部资源的测试等等。OpenAI 指出,互联网访问默认处于关闭状态,但用户可以在特定环境下启用。用户还可以控制 Codex 可以访问的特定域等等。此 Codex 互联网访问功能适用于 ChatGPT Plus、Pro 和 Teams 用户,企业用户也即将推出。
通过今天的更新,Codex 用户现在可以在跟进任务时更新现有的拉取请求。最后,用户现在可以向 Codex 口述任务。
除了上述内容和错误修复之外,OpenAI 还对 Codex进行了以下改进:
增加了对二进制文件的支持:应用补丁时,所有文件操作均受支持。使用 PR 时,目前仅支持删除或重命名二进制文件。
改进了安装脚本的错误消息。
将任务差异的限制从 1 MB 增加到 5 MB。
将安装脚本持续时间的限制从 5 分钟增加到 10 分钟。
完善的 GitHub 连接流程。
解决错过通知的问题后,重新启用 iOS 上的实时活动。
删除了使用 SSO 或社交登录的用户的强制性双因素身份验证要求。
OpenAI 今天的第二个重大更新是关于语音代理的。OpenAI的 Agents SDK现已支持 TypeScript,并支持切换、护栏、跟踪、MCP 和其他核心代理原语。该 SDK 还新增了对人机交互审批的支持,允许开发人员暂停工具执行、序列化和存储代理状态、批准或拒绝特定调用以及恢复代理运行。
OpenAI 还发布了更新的语音转语音模型,该模型在指令执行可靠性、工具调用一致性和中断行为方面均有所改进。此外,开发者现在可以自定义每次会话的语音语速。开发者现在可以通过 Realtime API 中的 gpt-4o-realtime-preview-2025-06-03 和 Chat Completions API 中的 gpt-4o-audio-preview-2025-06-03 访问更新后的模型。
最后,Traces 仪表板现在支持实时 API 会话,允许开发人员轻松地将语音代理运行可视化,包括音频输入/输出、工具调用和中断。