微软研究院展示虚拟麦克风阵列技术 借助多设备实现高精度语音转录

摘要:

在《蝙蝠侠》系列的《黑暗骑士》影片中,布鲁斯·韦恩通过攻击数百万部手机,打造了一套基于麦克风阵列的庞大监听网络(SONAR)。不过本周,微软研究院展示了一项类似的技术,它就是 Project Denmark 。其允许使用手机和笔记本电脑中的麦克风,创建出一个虚拟的麦克风阵列,并用于高精度地收听和会议转录。

speech-figure-1.png

(图自:Microsoft Research

虚拟麦克风阵列可将现有设备(如配备普通麦克风的手机或笔记本电脑等),动态组合成一个更大的阵列。

具体说来是,该系统基于连续音频流对齐、盲波束成形、语音识别、分割聚类(Diarization)、以及系统融合等技术来实现。

image.png

(截图 via MSPU

借助七组音频流输入,微软研究院已实现 22.3% 的错字率。在近距离麦克风的非重叠语段上,更是可以将错字率控制在 3% 以内。

至于系统支持的用户数量,则取决于区域内配备的麦克风数量。微软指出,该技术可方便客户随时随地地轻松转录会话内容,而不论其是否拥有专属的麦克风阵列。

查看评论
created by ceallan