ChatGPT推出语音和图像功能现在可以用不同形式的命令向AI提问

OpenAI 对 ChatGPT 的大部分改动都涉及人工智能机器人的功能：它能回答的问题、它能访问的信息以及改进的底层模型。不过这一次，它调整了你使用 ChatGPT 本身的方式。该公司正在推出一个新版本的服务，让你不仅可以通过在文本框中输入句子，还可以通过大声说话或上传图片来提示人工智能机器人。

据 OpenAI 称，新功能将在未来两周内向付费使用 ChatGPT 的用户推出，"不久之后"其他用户也将获得新功能。

图片.png

语音聊天部分让人非常熟悉：你点击一个按钮并说出你的问题，ChatGPT 会将其转换为文本并将其输入大型语言模型，然后得到答案，再将其转换为语音，并大声说出答案。这种感觉就像与 Alexa 或Google助手交谈一样，只是 OpenAI 希望，由于底层技术的改进，答案会更好。大多数虚拟助手似乎都在依靠 LLM 进行改造，而 OpenAI 则走在了前面。

OpenAI 出色的 Whisper 模型完成了大量的语音转文本工作，而且该公司正在推出一种新的文本转语音模型，据称它可以"通过文本和几秒钟的语音样本生成类似人类的音频"。你可以从五个选项中选择 ChatGPT 的声音，但 OpenAI 似乎认为该模型的潜力远不止于此。例如，OpenAI 正在与 Spotify 合作，将播客翻译成其他语言，同时保持播客的声音。合成语音有很多有趣的用途，OpenAI 可以成为该行业的重要组成部分。

但事实上，只需几秒钟的音频就能建立一个有能力的合成语音，这也为各种有问题的用例打开了大门。该公司在一篇宣布新功能的博文中说："这些功能也带来了新的风险，比如恶意行为者有可能冒充公众人物或实施欺诈。正是出于这个原因，OpenAI 才没有广泛使用这种模式：它将受到更严格的控制，并仅限于特定的使用案例和合作关系。"

与此同时，图片搜索有点像Google Lens。你只需拍下感兴趣的照片，ChatGPT 就会找出你的问题所在，并做出相应的回应。你还可以使用该应用的绘图工具来帮助清楚地表达你的疑问，或者根据图片说出或输入问题。这就是 ChatGPT 来来回回的特性所带来的帮助：你可以一边提示机器人，一边完善答案，而不是先搜索，得到错误答案后再搜索。(这与Google在多模态搜索方面的做法很相似）。

显然，图像搜索也有其潜在的问题。其一是当你向聊天机器人提示一个人时，可能会发生什么： OpenAI 表示，出于准确性和隐私方面的考虑，它有意限制了 ChatGPT"分析和直接陈述人的能力"。这意味着人工智能最科幻的愿景之一--看着一个人说："那是谁？- 这种能力不会很快实现。这也许是件好事。

在 ChatGPT 首次发布近一年后，OpenAI 似乎仍在努力探索如何为其机器人提供更多特性和功能，同时又不带来新的问题和弊端。在这些版本中，该公司试图通过故意限制其新机型的功能来实现这一目标。但这种方法不会永远奏效。随着越来越多的人使用语音控制和图像搜索，随着 ChatGPT 逐步成为一个真正多模式、实用的虚拟助手，要想继续保持护栏就会越来越难。