返回上一页  首页 | cnbeta报时: 21:18:50
ChatGPT推出语音和图像功能 现在可以用不同形式的命令向AI提问
发布日期:2023-09-25 20:37:08  稿源:cnBeta.COM

OpenAI 对 ChatGPT 的大部分改动都涉及人工智能机器人的功能:它能回答的问题、它能访问的信息以及改进的底层模型。不过这一次,它调整了你使用 ChatGPT 本身的方式。该公司正在推出一个新版本的服务,让你不仅可以通过在文本框中输入句子,还可以通过大声说话或上传图片来提示人工智能机器人。

据 OpenAI 称,新功能将在未来两周内向付费使用 ChatGPT 的用户推出,"不久之后"其他用户也将获得新功能。

图片.png

语音聊天部分让人非常熟悉:你点击一个按钮并说出你的问题,ChatGPT 会将其转换为文本并将其输入大型语言模型,然后得到答案,再将其转换为语音,并大声说出答案。这种感觉就像与 Alexa 或Google助手交谈一样,只是 OpenAI 希望,由于底层技术的改进,答案会更好。大多数虚拟助手似乎都在依靠 LLM 进行改造,而 OpenAI 则走在了前面。

OpenAI 出色的 Whisper 模型完成了大量的语音转文本工作,而且该公司正在推出一种新的文本转语音模型,据称它可以"通过文本和几秒钟的语音样本生成类似人类的音频"。你可以从五个选项中选择 ChatGPT 的声音,但 OpenAI 似乎认为该模型的潜力远不止于此。例如,OpenAI 正在与 Spotify 合作,将播客翻译成其他语言,同时保持播客的声音。合成语音有很多有趣的用途,OpenAI 可以成为该行业的重要组成部分。

但事实上,只需几秒钟的音频就能建立一个有能力的合成语音,这也为各种有问题的用例打开了大门。该公司在一篇宣布新功能的博文中说:"这些功能也带来了新的风险,比如恶意行为者有可能冒充公众人物或实施欺诈。正是出于这个原因,OpenAI 才没有广泛使用这种模式:它将受到更严格的控制,并仅限于特定的使用案例和合作关系。"

与此同时,图片搜索有点像Google Lens。你只需拍下感兴趣的照片,ChatGPT 就会找出你的问题所在,并做出相应的回应。你还可以使用该应用的绘图工具来帮助清楚地表达你的疑问,或者根据图片说出或输入问题。这就是 ChatGPT 来来回回的特性所带来的帮助:你可以一边提示机器人,一边完善答案,而不是先搜索,得到错误答案后再搜索。(这与Google在多模态搜索方面的做法很相似)。

显然,图像搜索也有其潜在的问题。其一是当你向聊天机器人提示一个人时,可能会发生什么: OpenAI 表示,出于准确性和隐私方面的考虑,它有意限制了 ChatGPT"分析和直接陈述人的能力"。这意味着人工智能最科幻的愿景之一--看着一个人说:"那是谁?- 这种能力不会很快实现。这也许是件好事。

在 ChatGPT 首次发布近一年后,OpenAI 似乎仍在努力探索如何为其机器人提供更多特性和功能,同时又不带来新的问题和弊端。在这些版本中,该公司试图通过故意限制其新机型的功能来实现这一目标。但这种方法不会永远奏效。随着越来越多的人使用语音控制和图像搜索,随着 ChatGPT 逐步成为一个真正多模式、实用的虚拟助手,要想继续保持护栏就会越来越难。

查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 21:18:50

文字版  标准版  电脑端

© 2003-2024