返回上一页  首页 | cnbeta报时: 17:39:11
超越TTS:谷歌WaveNet人工智能可以讲得比真人还生动
发布日期:2016-09-13 14:30:33  稿源:cnBeta.COM

Google已经将人工智能技术运用到了图像搜索和机器人对话等领域,甚至在围棋比赛上战翻了世界顶尖棋手。现在,该公司又将AI技术运用到了如何逼真地模仿人类语声上,包括用嘴和呼吸系统发出的“非演说”声音(non-speech sounds)。这套系统被叫做WaveNet,该神经网络可以生成语音波形元数据,并且惊人般地生动。

虽然我们早就有了非常实用的TTS(文本语音转换)系统,盲人等因此而颇为受益。但其通常先是录制一个人说各种各样的声音,然后生硬地衔接到一起(concatenative TTS)。

“参数式”文本语音转换(parametric TTS)则可通过语音编码器、合成分析和再现语音输入,但听起来还是太像机器(不够自然)。

相比之下,真人在说话的时候,会有很多更加零碎的声音/语气相助,而WaveNet则是一个可以更好地学习模仿真人说话的AI。

WaveNet能够对原始声波模式进行建模,每秒分析16000个样本,然后生成一个基于之前声音的预测模型,结果就是惊人的高仿真度——换言之,WaveNet已经能够“发出自己的声音”。

有关这项研究的更多内容,请移步至DeeMind博客(传送门)。

[编译自:Cnet]

查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 17:39:11

文字版  标准版  电脑端

© 2003-2024