自主音频机器人群可在混乱的房间中实现静音对话

华盛顿大学的研究人员说，他们现在可以让嘈杂房间的不同部分静音，或者在混乱的环境中隔离一段对话，这要归功于一群小型音频机器人，它们可以自动定位，精确定位并跟踪多个移动声源。

无标题.webp

我们人类闭着眼睛也能找到声源，这要归功于我们耳朵提供的略微分布的双麦克风阵列和音频屏蔽效果。但当音频环境变得复杂时，情况就会变得非常混乱--这与我们喜欢寻找嘈杂、拥挤和高能量空间（如周日上午的咖啡馆），然后试图在其中进行对话的怪癖不符。

在这些较为混乱的音频空间中，要想隔离单个音源并静音其他音源，唯一的办法就是部署更大的麦克风阵列，然后将所有音频流处理在一起，创建一个空间地图，对每个声音的位置进行三角测量，测量声音在空气中传播并到达每个麦克风时的微小时间差。然后，您可以使用难以捉摸的深度学习算法对所有音频流进行重新处理，为每个声源创建独立的音频流，并消除来自其他声源的所有噪音。

通过定位和跟踪房间中的多个声源，机器人麦克风阵列可以隔离不同的音频区域并使其静音图/华盛顿大学

这个想法本身并不新鲜，但华盛顿大学的研究人员现在对这一概念提出了新的看法，他们使用了一个由七个带轮子的小麦克风机器人组成的蜂群，每个机器人都只有一块松露巧克力大小，它们能从充电站自主部署，并在可用空间内创建一个自我优化的阵列。

这些机器人利用内置麦克风和扬声器，通过声纳在桌子表面导航，躲避障碍物，并尽可能广泛地分布，以最大限度地扩大麦克风之间的时间差。不幸的是，这确实意味着它们必须一个一个地移动，但一旦到位，它们的表现就相当惊人了，正如您在下面的视频中看到的那样。

那么最终的目的是什么呢？研究团队认为，像这样的机器人阵列可以作为便携式、自动部署、隔音麦克风阵列，用于会议室直播等，理论上比人类更好地分散自己的声音。

该团队表示，它在双向视频通话中的作用不大，因为虽然它的工作效率很高，但目前处理每三秒的声音块需要大约 1.82 秒。延迟也意味着它无法在短时间内将对话伙伴的纯净音频流传输到嘈杂的咖啡馆里的耳机中--尽管随着计算能力和速度的提高，这两种应用都有可能实现。

无标题.webp

当然，它也可以成为非常方便的监控工具，消除人群噪音的掩蔽效应，记录私人对话。有趣的是，华盛顿大学的研究团队表示，它的用途可能恰恰相反。

这项研究的共同第一作者、博士生马利克-伊塔尼（Malek Itani）说："它有可能真正有利于隐私保护，超出目前智能扬声器所允许的范围。我可以说'不要录下我桌子周围的任何东西'，我们的系统就会在我周围 3 英尺（0.9 米）处产生一个气泡。这个气泡中的任何东西都不会被记录下来。或者，如果有两组人在旁边讲话，其中一组人正在进行私人对话，而另一组人正在录音，那么其中一组人的对话可以处于静音区，并保持私密性。"

无标题.webp

从充电站释放后，机器人利用声纳将自己分布在一个表面周围，以实现最大的空间隔离

现实中，静态分布式麦克风阵列可能会在智能房间或智能家居设计中开始应用，它们可以轻松地将语音控制指令与不同区域隔离开来。比如，只听沙发上的声音就能控制电视，甚至在嘈杂的场所从站在吧台前的人那里分辨出饮料订单。

该论文在《自然-通讯》（Nature Communications）杂志上公开发表。

无标题.webp