返回上一页  首页 | cnbeta报时: 11:27:44
新的语音模式将于下周向 ChatGPT Plus 用户开放
发布日期:2024-07-26 16:08:00  稿源:cnBeta.COM

今年 5 月,OpenAI发布了其新的旗舰前沿模型 GPT-4o("o"代表"omni"),该模型的音频理解能力得到了突出强调。GPT-4o 模型可以在平均 320 毫秒的时间内响应音频输入,这与人类在典型对话中的响应时间相似。OpenAI 还宣布,ChatGPT 的语音模式功能将利用 GPT-4o 模型的音频能力为用户提供无缝的语音对话体验。

1721964220_chatgpt_voice_mode_rollout.jpg

OpenAI 团队撰文介绍了 GPT-4o 的语音功能:

"通过 GPT-4o,我们在文本、视觉和音频领域端到端训练了一个单一的新模型,这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们第一个将所有这些模式结合起来的模型,因此我们在探索该模型的功能及其局限性方面仍处于起步阶段。"

今年 6 月,OpenAI 宣布,原计划于 6 月底向一小部分 ChatGPT Plus 用户推出的高级语音模式将推迟一个月推出。OpenAI 提到,需要更多时间来提高该模式检测和拒绝某些内容的能力。此外,它还在准备基础设施,以便在保持实时响应的同时将其扩展到数百万用户。

今天,OpenAI 首席执行官 Sam Altman 通过 X 确认,语音模式 alpha 版本将于下周面向 ChatGPT Plus 用户推出。

由于平均 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)的显著延迟,ChatGPT 当前的语音模式并不直观。即将推出的基于 GPT-4o 的高级语音模式将使 ChatGPT 用户能够无延迟地进行无缝对话。

与此相关的是,OpenAI 今天展示了它期待已久的网络搜索体验--SearchGPT。目前,SearchGPT 只是一个原型,它提供的人工智能搜索功能可以从清晰、相关的来源为您提供快速、及时的答案。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 11:27:44

文字版  标准版  电脑端

© 2003-2024