ChatGPT 的高级语音模式获得重大更新听起来更自然

0 cnBeta.COM 2025-06-08 14:55:09

摘要：

OpenAI 去年推出了GPT-4o，同时带来了高级语音模式。该功能使用原生多模态模型（例如 GPT-4o），最快可在 232 毫秒内响应音频输入，平均响应时间为 320 毫秒，与人类在典型对话中的响应时间相似。它还可以生成更自然的音频，捕捉非语言线索（例如说话速度），并表达情感。

今年年初，OpenAI 发布了高级语音模式的小幅更新，减少了打断并改善了口音。今天，OpenAI 再次对高级语音模式进行了重大升级，使其听起来更加自然、更贴近人类。现在，语音回复的语调更加细腻，节奏更加自然（包括停顿和强调），并且能够更准确地表达某些情绪，例如同情和讽刺。

本次更新还引入了翻译功能。ChatGPT 用户现在可以使用高级语音模式进行语言间翻译。只需命令 ChatGPT 开始翻译，它就会在整个对话过程中持续翻译，直到收到停止指令。此功能有效地取代了对专用语音翻译应用的需求。

目前，更新后的高级语音模式仅适用于 ChatGPT 付费用户。OpenAI 还指出，此最新更新存在一些已知的限制，概述如下。

尽管仍然存在一些小的限制，但持续的改进表明未来人类和人工智能对话之间的界限将变得越来越模糊。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道，更好阅读体验，更及时更新提醒，欢迎前来阅览和打赏。

最新资讯