“古腾堡计划”利用神经文本转语音技术发布5000本免费有声读物

近年来，有声读物因其易读性而大受欢迎，但录制有声读物既困难又昂贵。最近，研究人员展示了一种使用合成文本到语音的自动方法，解决了该技术面临的诸多问题，使普通用户也能制作有声读物。现在，读者可以通过古腾堡计划免费收听数以千计的经典文学有声读物和其他公共领域的资料。微软和麻省理工学院的研究人员通过文本转语音软件对书籍进行扫描，创建了这套书集。

这些文本包括莎士比亚、阿加莎-克里斯蒂、简-奥斯汀、达-芬奇等人的作品。用户可以在 Internet Archive、Spotify、Apple Podcasts 和 Google Podcasts 上收听：

https://marhamilresearch4.blob.core.Windows.net/gutenberg-public/Website/index.html

GitHub 上提供了用于构建有声书合集的代码：

https://github.com/microsoft/SynapseML

苹果公司于今年 1 月开始利用自动文本转语音技术销售有声读物。然而，这一尝试受到了批评苹果商业目标的文学界人士和为公司的人工智能提供训练的配音演员的质疑。古腾堡的做法由于是开源的，没有盈利动机，可能会引起不同的反应。

古腾堡计划花了几十年的时间建立了一个文本格式的免费文献库，供人们免费广泛使用，但有声读物可以让人们更容易获取这些资料。有声读物对开车、处理多项任务、视力受损、学习阅读或学习新语言的读者很有帮助。

使用传统方法制作有声读物，需要花费时间和金钱请人朗读整本书。手动录制每本值得一读的书的音频版本并不划算。文本到语音技术更适合古滕贝格项目。然而，研究人员的机器学习工具面临着多重障碍。

第一个也是最重要的一个问题是确定软件可以解析哪些数字图书。古腾堡计划以多种格式收集资料，其中许多文件包含错误或不完美的扫描。因此，研究人员将重点放在以 HTML 文件格式存储的图书上，并建立了一个工具（如上图所示）来发现哪些项目显示了类似的格式。

研究人员解决的另一个问题是确保系统知道哪些文本需要阅读或忽略。它涉及目录、页码、脚注、表格和其他无关材料等组件。

此外，结果听起来需要足够接近自然人的语音。研究人员重点研究了最适合非虚构作品和旁白的声音表达方式，但用户也可以调整软件，尝试戏剧性的朗读。

研究人员计划举行一次演示，让用户用自己的声音生成有声读物。在录制几句话训练算法后，每个参与者都可以先听一段样本，然后再让软件朗读整本书。他们还将通过电子邮件收到有声读物的副本。用户可以从合成声音中进行选择，定制每本有声读物。