加州大学伯克利分校和加州大学旧金山分校的研究人员开发了一种脑机接口系统,能够让严重瘫痪的人恢复自然的语言能力。这项创新解决了语音神经假体领域长期存在的难题,在《自然神经科学》杂志发表的一项研究中进行了详细介绍,代表着在为失去说话能力的人提供实时通信方面迈出了重大一步。
研究团队利用人工智能的进步解决了延迟问题(即人们说话的意图和发出声音之间的延迟)。他们的流媒体系统可以近乎实时地将神经信号解码为可听见的语音。
“我们的流式传输方法为神经假体带来了与 Alexa 和 Siri 等设备相同的快速语音解码能力,”加州大学伯克利分校联合首席研究员兼助理教授 Gopala Anumanchipalli解释道。“使用类似的算法,我们发现我们可以解码神经数据,并首次实现近乎同步的语音流式传输。结果是更自然、更流畅的语音合成。”
这项技术对于改善 ALS 或中风引起的瘫痪等疾病患者的生活有着巨大的希望。“令人兴奋的是,最新的人工智能进展大大加速了 BCI 在不久的将来在现实世界中的实际应用,”加州大学旧金山分校神经外科医生、这项研究的高级联合首席研究员 Edward Chang 说。
该系统的工作原理是从运动皮层(大脑中负责控制语音产生的部分)采集神经数据,然后使用人工智能将这种活动解码为口语。研究人员在 Ann 身上测试了他们的方法,Ann 是一名 47 岁的女性,自 18 年前中风以来一直无法说话。Ann 参加了一项临床试验,在她试图默默说出屏幕上显示的句子时,植入她大脑表面的电极记录了神经活动。然后,使用以她受伤前的声音训练的人工智能模型将这些信号解码为可听见的语音。
“我们本质上是在拦截将思想转化为表达的信号,”加州大学伯克利分校博士生、这项研究的共同主要作者 Cheol Jun Cho 解释道。“所以我们解码的是思想发生之后——在我们决定说什么以及如何移动我们的声道肌肉之后。”这种方法使研究人员能够将 Ann 的神经活动映射到目标句子上,而无需她发声。
其中一个关键突破是实现近乎实时的语音合成。以前的 BCI 系统存在显著延迟——解码一个句子需要长达八秒钟——但这种新方法大大减少了延迟。“我们可以看到,相对于那个意图信号,在一秒钟内,我们就能得到第一个声音,”Anumanchipalli 指出。
该系统还展示了连续解码功能,让安可以不受干扰地“说话”。
尽管速度很快,但该系统在解码语音方面仍保持了较高的准确率。为了测试其适应性,研究人员评估了它是否可以合成训练数据集之外的单词。
他们使用北约语音字母表中的稀有单词,如“Alpha”和“Bravo”,证实了他们的模型可以推广到熟悉词汇之外。“我们发现我们的模型在这方面做得很好,这表明它确实在学习声音或语音的构成要素,”Anumanchipalli 说。
Ann 本人也注意到,这种新的流媒体方法与之前研究中使用的早期文本转语音方法之间存在巨大差异。据 Anumanchipalli 称,她认为近乎实时地听到自己的声音增强了她的身临其境感,这是让 BCI 感觉更自然的关键一步。
研究人员还探索了他们的系统如何与不同的脑传感技术配合使用,包括穿透脑组织的微电极阵列 (MEA) 和检测面部肌肉活动的非侵入性表面肌电图 (sEMG) 传感器。这种多功能性表明,该系统在各种 BCI 平台上具有更广泛的潜在应用。
该团队目前正致力于进一步增强和优化他们的技术。正在进行的研究领域之一是通过将声调、音调和响度等副语言特征融入合成语音来增强表达能力。“即使在传统音频合成领域,这也是一个长期存在的问题,”另一位共同主要作者、加州大学伯克利分校博士生 Kaylo Littlejohn 说。“它将弥补与完全自然主义的差距。”
尽管仍处于实验阶段,但这一突破带来了希望,即通过持续的投入和开发,能够恢复流利语音的 BCI 可能在未来十年内得到广泛应用。
该项目获得了日本国立耳聋和其他交流障碍研究所(NIDCD)、日本科学技术振兴机构的“登月计划”以及多家私人基金会等组织的资助。
Cho 表示:“这个概念验证框架是一个重大突破。我们乐观地认为,现在我们可以在各个层面取得进展。”