返回上一页  首页 | cnbeta报时: 03:24:34
OpenAI 推出三款实时语音模型 可边听边“思考”、翻译和转录
发布日期:2026-05-08 02:32:34  稿源:cnBeta.COM

OpenAI 今日发布三款全新的实时语音模型,旨在为开发者“解锁新一代语音应用形态”。 这三款语音智能模型分别侧重推理对话、实时翻译和实时转录等不同场景需求。

根据 OpenAI 公布的信息,新系列包括 GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper 三个模型。 其中,GPT‑Realtime‑2 被定位为首款具备 GPT‑5 级推理能力的语音模型,能够更好地处理复杂请求,并以更自然的方式持续推进对话。 官方介绍称,该模型专为实时语音交互打造,在用户提问或发出指令时,一边进行推理、一边保持对话连贯,同时还能调用工具、处理用户打断和更正,并根据当下情境作出更贴切的回应。

第二款模型 GPT‑Realtime‑Translate 主打实时翻译能力,可支持“70 多种输入语言和 13 种输出语言”,并在翻译过程中尽量跟上说话者的语速。 这一特性意味着,跨语言通话、会议或直播等场景,有望通过该模型获得更接近“同声传译”的体验。

第三款 GPT‑Realtime‑Whisper 则是一款实时流式语音转写模型,聚焦低延迟语音转文本能力。 OpenAI 表示,该模型可以在说话者讲话的同时即时完成转录,使得各类实时产品显得更快速、更灵敏、更自然。 从直播字幕“边说边出”,到能跟上讨论节奏的会议记录,这类应用场景都被视为 GPT‑Realtime‑Whisper 的主要发力方向。

在接入方式与价格方面,OpenAI 称三款新语音模型均已纳入其 Realtime API 体系。 GPT‑Realtime‑2 的定价为每 100 万音频输入 Token 收费 32 美元(缓存输入 Token 为 0.40 美元),每 100 万音频输出 Token 收费 64 美元。 GPT‑Realtime‑Translate 的价格为每分钟 0.034 美元,而 GPT‑Realtime‑Whisper 的价格为每分钟 0.017 美元。

OpenAI 表示,开发者可以通过 Playground 直接测试这些新的实时语音模型。 若已安装 Codex,只需在指定提示上点击提交,即可将 GPT‑Realtime‑2 添加到现有应用,或基于该模型快速创建一款新应用。 官方也在其网站上进一步介绍了这三款语音模型的技术细节,以及部分合作企业已经如何在实际产品中加以利用。

在生成式 AI 持续向多模态与实时交互演进的背景下,OpenAI 此次发布的三款语音模型,被视为其在“语音智能”方向上的又一重要布局。 随着推理、翻译与转录能力的统一整合,开发者将能够更轻松地为用户提供“开口就能用”的语音 AI 体验,从助手工具到生产力应用,再到内容创作与无障碍服务,都有望迎来新一轮探索与创新。

查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 03:24:34

文字版  标准版  电脑端

© 2003-2026