OpenAI展示语音克隆人工智能模型只需15秒样本即可工作

OpenAI 正在提供对其开发的文本到语音生成平台 "语音引擎 "的有限访问权限，该平台可以根据某人的 15 秒语音片段创建合成语音。人工智能生成的语音可以根据命令用与说话者相同的语言或其他语言朗读文本提示。"这些小规模的部署有助于为我们的方法、保障措施提供信息，并帮助我们思考如何将语音引擎用于各行各业的公益事业，"OpenAI在其博文中说。

可以访问的公司包括教育技术公司 Age of Learning、视觉故事平台 HeyGen、前线健康软件制造商 Dimagi、人工智能通信应用开发商 Livox 和健康系统 Lifespan。

在 OpenAI 发布的这些样本中，你可以听到Age of Learning利用该技术生成预制画外音内容，以及向学生朗读由 GPT-4 撰写的 "实时、个性化回复"。

首先是英文参考音频：

下面是人工智能根据该样本生成的三个音频片段：

OpenAI 表示，它于 2022 年底开始开发语音引擎，该技术已经为文本到语音 API 和ChatGPT 的朗读功能提供了预设语音。OpenAI 语音引擎产品团队成员杰夫-哈里斯（Jeff Harris）在接受TechCrunch 采访时表示，该模型是在 "授权数据和公开数据的混合 "基础上训练出来的。OpenAI 告诉该刊物，该模型将只向大约 10 名开发者开放。

人工智能文本到音频生成是生成式人工智能的一个不断发展的领域。虽然大多数人都专注于乐器或自然声音，但专注于语音生成的人较少，部分原因是 OpenAI 提出的问题。该领域的一些知名公司包括 Podcastle 和 ElevenLabs，它们提供人工智能语音克隆技术和工具。

与此同时，美国政府也在努力遏制不道德地使用人工智能语音技术。上个月，美国联邦通信委员会禁止了使用人工智能语音的自动拨叫电话，因为人们收到了由人工智能克隆的乔-拜登总统的声音打来的垃圾电话。

据 OpenAI 称，其合作伙伴同意遵守其使用政策，即未经同意不得使用语音生成技术冒充他人或组织。该政策还要求合作伙伴获得原始发言人的 "明确和知情同意"，不建立个人用户创建自己声音的方法，并向听众披露声音是人工智能生成的。OpenAI 还为音频片段添加了水印，以追踪其来源，并积极监控音频的使用情况。

OpenAI 提出了几项措施，认为这些措施可以限制类似工具的风险，包括逐步淘汰访问银行账户的语音认证，制定政策保护人工智能中对人声的使用，加强人工智能深度伪造方面的教育，以及开发人工智能内容跟踪系统。