OpenAI可能会推出Jarvis一样的个人助理新商标Voice Engine信息汇总

OpenAI申请商标Voice Engine，暗示着OpenAI可能即将推出围绕语音引擎开发的产品或者服务，很有可能是类似Siri那样的个人助理产品。OpenAI正在申请一个新商标Voice Engine，商标的覆盖范围主要是围绕语音识别、语音合成和语音生成几个方面。这暗示着OpenAI可能即将推出围绕语音引擎开发的产品或者服务，很有可能是类似Siri那样的个人助理产品。

尽管这是商标申请，但是Google前雇员透露的信息以及上个月泄露的OpenAI正在开发的Agent产品都似乎印证着OpenAI要做的事情：

开发一个全球最强的个人助理，接管个人设备，以Jarvis那样的形式提供服务！

Voice Engine商标内容

Voice Engine是OpenAI最近提交一个商标名称，其内容主要包含了语音识别和语音合成相关的内容。

这个商标背后可能提供的产品和服务涵盖了广泛的计算机软件和开发工具领域，特别是在语音和自然语言处理技术方面。具体来说，可能提供的产品和服务包括但不限于：

自动语音识别和生成软件：用于自动识别和生成语音的软件，可能在虚拟助手、智能家居设备等场景中有广泛应用。
基于自然语言提示生成语音和音频输出的软件：这类软件能够根据文本、语音、视觉提示、图像或视频生成语音和音频输出，可用于各种应用，如内容创作、教育、娱乐等。注意，这不是文本转语音，而是根据文本提示生成语音结果！
数字语音助手开发工具：提供用于构建数字语音助手的软件和开发工具，有助于开发者创建智能交互应用。虽然是工具，但是显然这是可以用于开发个人助理的工具！
响应用户提示生成音频或语音的软件：这类软件能够根据用户的提示生成相应的音频或语音输出，可能用于互动媒体、游戏或其他应用中。这个目前在ChatGPT客户端也有了，就是用语音响应用户输入。
机器学习基础的自然语言和语音处理软件：涉及使用机器学习技术进行自然语言和语音的处理、识别和分析的软件。
多语言语音识别、翻译和转录软件：支持多语言的语音识别、翻译和转录功能的软件，适用于国际化应用、内容创作等场景。
应用程序接口（API）软件和软件开发套件（SDKs）：提供可作为API使用的软件，可能支持开发者在各种应用和服务中集成语音和自然语言处理功能。

综上所述，VOICE ENGINE™旨在为开发者和创新者提供一系列强大的工具和软件，以便在各种平台和设备上开发和集成先进的语音交互和自然语言处理功能。

而这其中最令人关注的应该是下面的2个内容：一个是可以配合Sora视频生成的功能，为视频配音；另一个则是作为个人助理，支持语音交互！

为Sora视频配音的语音生成功能

传统的语音领域的模型主要方向包括2类：一个是语音合成，即Text to speech（TTS）：将文本转成语音。另一个是自动语音识别（Auto Speech Recognition，ASR），即识别语音转成文本。

但是，根据这个描述响应用户提示生成音频或语音的软件，这个能力应该是类似视频生成和图片生成那种，基于文本prompt，来生成相应的语音结果。

例如，你可以给系统说，生成一段音乐或者一只老虎在野外和狮子战斗的声音。然后模型返回相应的语音结果。这不是一种文本转语音而是语音生成的能力。

在最近爆火的OpenAI的Sora演示中（OpenAI最强的视频生成大模型： OpenAI发布全新文本生成视频大模型Sora，可以生成无比逼真的最长60秒的视频，且生成的视频尺寸可以任意指定），所有的视频都没有声音。OpenAI官方说目前他们还没有实现为生成的视频配音的功能。但是未来会支持。这意味着基于文本生成音频应该也是类似的技术了。

与Agent传言互相印证：OpenAI的Jarvis产品

在前面的商标描述中提到，OpenAI的Voice Engine可以提供响应用户提示生成音频或语音的软件。这几乎就是一个个人数字助理的形态，它不同于语音合成或者语音识别。而是根据用户的输入进行语音的响应。这意味着用户可以通过文本、语音来输入，然后服务直接用语音回复结果。

从技术角度来说，传统的语音助理应该是先通过ASR识别用户的语音，然后转成文本，GPT再根据文本生成答案，再由TTS技术合成语音输出。这个分步系统最大的缺点就是时延以及准确性！三个步骤，每个步骤准确率90%，最终的回复准确率可能只有72.9%了！如果这是一个端到端的模型（符合OpenAI当前的技术趋势），那么时延和准确性都值得期待！

此外，结合此前的传言说GPT可能要接入个人本地电脑系统，那作为一个个人助手完全是没问题的。

同时，Google前雇员Jonathan Chavez在前段时间也发布过一个消息，他说OpenAI在今年会推出一个全球最好的个人助理产品，就像钢铁侠中的Jarvis。

Jarvis除了需要有GPT-4那种强大的语言响应能力外，还有个重要的特点是语音的输入和输出。虽然在当前的ChatGPT客户端和网页版中已经实现了语音交互以及文本转语音的能力。但是，它本身是为了支撑ChatGPT的功能存在的，范围局限在ChatGPT的对话过程中。一旦如果像Jonathan Chavez所说是一个前所未有最强大的个人助理，那么意味着它可以帮助我们操作我们的电脑和手机，使用APP等。

这个消息和上个月泄露的OpenAI正在做一个强大的AI Agent也有很大的相关性：OpenAI正在开发一个全新的基于大模型的Agent产品。

在这个传言中，OpenAI做的事情描述如下：

OpenAI正在开发的这个Agent形式的产品，通过有效地接管用户的设备来让复杂任务被自动执行。然后，用户可以请求ChatGPT将数据从文档转移到电子表格中进行分析，或自动填写费用报告并将其输入会计软件。这类请求将触发ChatGPT来执行点击、光标移动、文本输入以及人们在使用不同应用程序时进行的其他操作。