视频转声音技术可帮助盲人识别人脸

识别人脸的能力在人类中根深蒂固，在我们的一些遥远的、以社会为导向的灵长类表亲中也是如此。事实上，大脑中似乎存在一些区域--特别是位于大脑后下方的下颞皮层中一个名为"纺锤形面孔区"或"FFA"的区域--当我们看到人脸时，这些区域会特别亮起来。

有趣的是，2009 年的一项研究还发现，即使人们看到的东西看起来有点像人脸，FFA 也会被激活--因此它参与了"幻视"现象，即我们在无生命的物体上看到人脸。当人们开始发展某一特定领域的专业知识时，同一区域也会开始激活，例如，这显然有助于汽车疯子通过视觉区分不同的车型，或帮助国际象棋专家识别棋盘上熟悉的构型。

2020 年，麻省理工学院的研究将盲人置于 fMRI 扫描仪中，让他们感受各种 3D 打印的形状，包括脸、手、椅子和迷宫，结果发现，触摸这些小脸也会以类似的方式激活 FFA。

观看示意性面孔的受试者纺锤形面区的视觉激活图/乔治敦大学

因此，从某种意义上说，FFA 似乎并不在乎是哪个感觉系统向它提供了与脸部有关的信息--乔治敦大学医学中心神经科学小组的最新研究为这一假设提供了证据。

该团队招募了 6 名盲人和 10 名视力正常的受试者，并开始使用"感觉替代装置"对他们进行训练。该装置包括一个头戴式摄像机、蒙眼目镜、一副耳机和一台处理计算机，处理计算机将摄像机的输入转换成音频，将视野分割成一个 64 像素的网格，并赋予每个像素各自的听觉音调。

研究论文描述，如果图像只是位于摄像机视野右上角的一个点，相关的声音将是高频率的，主要通过右耳机传递。如果点位于视野的中上部，声音将是高频音，但通过左右耳机发出的音量相同。如果图像是左下角的一条线，相关的声音将是低频的混合物，主要通过左耳机发出。

受试者用这些设备进行了 10 次每次一小时的训练，学习用耳朵"看"，同时左右移动头部。卡片上会出现一些简单的图形；水平线和垂直线、不同形状的房子、几何图形以及基本的表情符号式喜怒哀乐表情。这是一个相当困难的训练过程，但在训练结束时，所有受试者识别简单形状的准确率都超过了 85%。

感官替代装置的分辨率仅为 64 像素。右下方是向受试者展示的一些形状。

在 fMRI 仪器上进行形状识别测试时，当出现基本的脸部形状时，视力正常的受试者和失明的受试者都显示出 FFA 的激活。一些盲人受试者还能正确识别出人脸是喜脸还是愁脸--您可以从研究中一段 45 秒的音频片段中听到这一点，您也可以从这段片段中了解到该设备的声音。

这项研究的资深作者、神经科学教授 Josef Rauschecker 博士在一份新闻稿中说："我们从盲人身上获得的结果表明，纺锤形脸部区域的发育并不取决于对实际视觉脸部的体验，而是取决于对脸部几何构型的接触，这种几何构型可以通过其他感官模式传达。"

研究小组还发现，视力正常的受试者主要在右侧纺锤形面区出现激活，而失明的受试者则在左侧FFA区出现激活。

Rauschecker说："我们认为，盲人和非盲人之间的左右差异可能与左右两侧的纺锤形区域如何处理人脸有关--要么作为连接的模式，要么作为独立的部分，这可能是帮助我们完善感官替代装置的重要线索。"

研究小组希望继续进行实验，有可能开发出分辨率更高的感官替代装置，最终让训练有素的受试者能够识别真实的人脸。

需要提醒的是，像这样的图像声音转换设备在实际应用中可能不会有太大帮助--部分原因是它们需要大量的训练，部分原因是盲人已经非常依赖听力，不太可能希望额外的哔哔声和噗噗声扰乱他们对世界的感知。

更不用说，随着深度学习多模态人工智能的兴起，已经有一些系统可以让 GPT 风格的语言模型查看图像或视频，并以人们喜欢的任何详细程度描述正在发生的事情。事实证明，这种自然语言解说比直接从视频到音频的馈送更容易实现、使用和满足个人需求。

尽管如此，这仍然是非常吸引人的东西，它显示了两眼一嘴的老形状在我们的硬件中埋藏得有多深，以及这些形状对我们这种社会动物的重要性。

这项研究已在《公共科学图书馆》（PLOS）杂志上公开发表。