斯坦福的脑机接口将内心的语言转化为口语

摘要:

斯坦福大学的研究人员研发出一种脑机接口,能够将神经活动中的想象词语直接转化为语音,这在神经技术领域尚属首创。与早期依赖于检测人们试图移动嘴巴或声带时产生的脑信号的系统不同,这种新方法即使人们只是想要说话,也能发挥作用。

四名因肌萎缩侧索硬化症和脑干中风等疾病导致严重瘫痪的患者参加了这项试验。其中一名参与者只能通过转动眼球来做出反应——向上转动表示“是”,左右转动表示“否”。在本周《细胞》杂志上发表的这项研究中,医生将微型电极阵列植入每位参与者的运动皮层(大脑中通常控制与言语相关的运动的区域)。

这项技术由 BrainGate BCI 联盟开发,该联盟是一个长期致力于脑机接口研究的学术合作项目。电极安装到位后,会记录言语运动皮层的活动,同时参与者会被要求完成两项任务:尝试大声说话和默默想象特定的单词。

机器学习模型经过训练,能够检测并分类与音素(口语中最小的单个声音单位)相关的大脑活动的不同模式。然后,系统实时将这些音素重新组合成完整的单词和句子。研究人员发现,与实际语音相比,想象的语音产生的神经特征虽然较弱,但仍然清晰可辨。即便如此,解码系统的准确率仍高达 74%。

“这是我们首次成功理解当你仅仅想说话时大脑活动的形态,”该研究的主要作者、斯坦福大学神经科学家艾琳·昆兹(Erin Kunz)告诉《金融时报》。她表示,对于患有严重言语和运动障碍的人来说,能够理解内心语言的脑机接口可以让交流“更轻松、更自然”。

斯坦福大学神经外科助理教授、该团队的资深成员弗兰克·威利特表示,这些研究结果展现了该领域在帮助失语患者恢复对话交流方面取得的进展。他指出,对于部分瘫痪的患者来说,尝试说话可能会消耗体力,并可能产生不必要的声音或呼吸困难。直接从大脑解码无声语音可以消除这些障碍。

研究人员还发现了一个重要的隐私隐患。在某些情况下,系统会识别出参与者未曾被要求思考的单词,例如在视觉任务中数数。为了解决这个问题,团队创建了一种心理锁,除非被想象中的密码触发,否则解码器将保持非活动状态。在测试中,“chitty chitty bang bang”这个短语成功阻止了98%的意外解码。

这一突破正值学术界和商业界对脑机接口(BCI)的兴趣日益浓厚之际。随着OpenAI首席执行官萨姆·奥特曼(Sam Altman)投资的新公司Merge的成立,该领域的投资预计将进一步增加,Merge旨在与埃隆·马斯克的Neuralink展开竞争。

虽然斯坦福大学的这项研究仍处于实验阶段,但研究人员认为,它提供了原理验证,表明未来的设备可以让人们仅凭思维就能流利地说话。“这项研究带来了真正的希望,”威利特说,“语音脑机接口技术有朝一日能够恢复像对话一样流畅、自然和舒适的交流。”

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan