科学家设计出一种可在拥挤的空间中用眼神分离出特定声音的AI耳机

0 cnBeta.COM 2024-05-24 15:05:24

摘要：

在一个拥挤嘈杂的空间里，很多人都在说话，很难听清一个人在说什么。这对于重听者来说尤其如此。虽然现代助听器采用了降噪技术，但并不能完全消除背景噪音。华盛顿大学（UW）的研究人员设计出了一种在嘈杂环境中提高听力的解决方案。他们利用装有人工智能的普通降噪耳机，开发出一种只需佩戴者看一眼就能分辨出说话者声音的系统。

华盛顿大学保罗-艾伦计算机科学与工程学院教授、本研究的资深作者希亚姆-戈拉科塔（Shyam Gollakota）说："我们现在往往认为人工智能是基于网络的聊天机器人，可以回答问题。但在这个项目中，我们开发的人工智能可以根据佩戴耳机的人的喜好，改变他们的听觉感知。有了我们的设备，即使你身处嘈杂的环境中，有很多其他人在说话，你现在也能清楚地听到单个扬声器的声音。"

这种耳机配有麦克风和一个按钮华盛顿大学

研究人员开发的"目标语音听力"（THS）系统简单而有效。现成的耳机装有两个麦克风，每个耳罩上一个。佩戴者看着想要听到的人，按一次耳机侧面的按钮，持续三到五秒钟。说话者的声波会同时传到两个麦克风上（误差范围为 16 度），然后被发送到机载计算机上，由机器学习软件学习说话者的发声模式。然后，说话者的声音就会被分离出来，并通过耳机传送，即使他们走动时也是如此，无关的噪音也会被过滤掉。

下面的视频展示了耳机的功效。它能快速过滤环境噪声，将注意力集中在扬声器上，消除附近（室内）有人讲电话和室外喷泉发出的嘈杂声。

人工智能能以多快的速度处理说话者的声音并消除不想要的声音？研究人员在测试时发现，他们的系统的端到端延迟时间为 18.24 毫秒。相比之下，眼睛眨一下的时间在 300 到 400 毫秒之间。这就意味着，从看着你想听的人到耳机里只听到他的声音之间几乎没有延迟时间，一切都是实时发生的。

他们让 21 名受试者体验了 THS 系统，受试者对耳机在真实的室内和室外环境中提供的噪音抑制效果进行了评分。平均而言，受试者对说话者声音清晰度的评分是未处理时的两倍。

他们的THS系统建立在华盛顿大学研究人员之前开发的"语义听觉"技术基础之上。与 THS 一样，该技术使用的是智能手机上运行的人工智能算法，该算法与降噪耳机无线连接。语义听觉系统可以准确识别鸟鸣、警报和报警等噪音。

目前，新系统一次只能过滤一个目标扬声器，而且只能在与扬声器同一方向没有其他大音量声音时过滤。但如果耳机佩戴者对音质不满意，他们可以对扬声器的声音重新采样，以提高清晰度。研究人员正在努力将他们的系统扩展到耳塞和助听器。他们还在 GitHub 上公开了 THS 代码，以便其他人在此基础上进行开发。该系统尚未投入商业使用。

本月早些时候，研究人员在夏威夷檀香山举行的美国计算机协会（Association of Computing Machinery，ACM）计算机-人交互（Computer-Human Interaction，CHI）会议上介绍了他们的研究成果，并获得了荣誉奖。未发表的研究论文可在此处查阅。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道，更好阅读体验，更及时更新提醒，欢迎前来阅览和打赏。

查看评论

今日最热

加载中...

最新资讯

今日最热