ChatGPT 的高级语音模式获得重大更新 听起来更自然
OpenAI 去年推出了GPT-4o,同时带来了高级语音模式。该功能使用原生多模态模型(例如 GPT-4o),最快可在 232 毫秒内响应音频输入,平均响应时间为 320 毫秒,与人类在典型对话中的响应时间相似。它还可以生成更自然的音频,捕捉非语言线索(例如说话速度),并表达情感。
今年年初,OpenAI 发布了高级语音模式的小幅更新,减少了打断并改善了口音。今天,OpenAI 再次对高级语音模式进行了重大升级,使其听起来更加自然、更贴近人类。现在,语音回复的语调更加细腻,节奏更加自然(包括停顿和强调),并且能够更准确地表达某些情绪,例如同情和讽刺。
本次更新还引入了翻译功能。ChatGPT 用户现在可以使用高级语音模式进行语言间翻译。只需命令 ChatGPT 开始翻译,它就会在整个对话过程中持续翻译,直到收到停止指令。此功能有效地取代了对专用语音翻译应用的需求。
目前,更新后的高级语音模式仅适用于 ChatGPT 付费用户。OpenAI 还指出,此最新更新存在一些已知的限制,概述如下。
本次更新偶尔可能会导致音频质量略有下降,例如音调和音调出现意外变化,在某些语音选项中尤其明显。OpenAI 期望能够逐步提升音频的一致性。
语音模式下的罕见幻觉仍然存在,有时会产生类似广告、胡言乱语或背景音乐的意外声音。
尽管仍然存在一些小的限制,但持续的改进表明未来人类和人工智能对话之间的界限将变得越来越模糊。