返回上一页  首页 | cnbeta报时: 22:35:28
瘫痪患者很快就能通过“近实时”脑信号转换“说话”
发布日期:2025-04-11 08:26:04  稿源:cnBeta.COM

加州大学伯克利分校和加州大学旧金山分校的研究人员在脑机接口 (BCI) 技术方面取得了重大进展,他们开发出一套系统,能够帮助重度瘫痪患者恢复近乎自然的言语能力。这项新方法致力于解决言语神经假体的一个关键挑战:从患者试图说话到其思维转化为声音之间的延迟。

这项突破性技术发表在《自然神经科学》杂志上,利用人工智能 (AI) 将脑信号几乎即时解码为语音。通过近乎实时地将大脑活动转化为可听语音,该系统使语音更加流畅自然,从而实现连续表达,避免出现明显的停顿。该研究由美国国立卫生研究院 (NIH) 下属的国家耳聋和其他沟通障碍研究所 (NIDCD) 资助。

“我们的流媒体系统使用与 Alexa 或 Siri 等设备类似的算法来解码脑信号,并以几乎与思维速度相同的速度生成语音,”加州大学伯克利分校联合首席研究员兼助理教授 Gopala Anumanchipalli 解释道。“这是我们首次能够直接从神经数据实现流畅、连续的语音合成。”

这项新技术还可在多种设备上使用。它支持使用皮肤传感器测量面部肌肉活动的非侵入式方法,以及在大脑表面或内部放置电极的更复杂系统。据该论文合著者、博士生凯洛·利特尔约翰 (Kaylo Littlejohn) 介绍,只要能够获取可靠的信号,该算法就能适应各种脑部监测装置。

神经假体将大脑运动皮层(控制言语)的神经活动转化为文字。这个过程是在一个人已经形成了想法并准备活动发声肌肉之后进行的。为了训练系统,参与者默默地尝试说话,同时研究人员记录他们的大脑活动。人工智能模型会填补缺失的细节,例如声音模式,从而创建语音输出。

值得注意的是,该团队以参与者受伤前的声音作为参考,确保输出的声音听起来既熟悉又贴切。先前的研究表明,解码完整句子会有8秒的延迟,但新方法可以在不到一秒的时间内实现语音的可听性。更快的响应速度与高精度相匹配,表明在不牺牲质量的情况下实现实时流媒体传输是可能的。

为了测试其灵活性,研究人员合成了系统训练数据中没有的稀有词汇,例如来自北约音标字母表的词汇(“Alpha”、“Bravo”等)。该技术表现良好,展现出其在词汇应用方面的潜力。

加州大学旧金山分校高级研究员兼神经外科医生 Edward Chang 强调了其在现实世界中的应用。“这项创新让我们更接近实用的脑机接口,它可以极大地改善严重言语障碍患者的沟通能力,”他说。

未来的努力旨在增强语音的情感基调和表现力。目标是反映音调、音量和情感的变化,使输出更加逼真。随着进一步完善,这项技术可以显著改善失语人士的沟通方式。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 22:35:28

文字版  标准版  电脑端

© 2003-2025