密歇根大学开发的AI工具可以通过狗叫声分辨出其是否具有攻击性
你是否曾希望自己能听懂你的狗想对你说什么?密歇根大学的研究人员正在探索人工智能的可能性,他们开发的工具可以识别狗的叫声是在表达玩耍还是在表达攻击。同样的模型还能从动物的发声中收集其他信息,如动物的年龄、品种和性别。
这项研究是与墨西哥普埃布拉国家天体物理学、光学和电子学研究所(INAOE)合作进行的,研究发现,最初针对人类语言训练的人工智能模型可以作为一个起点,用来训练针对动物交流的新系统。
相关成果已在计算语言学、语言资源和评估联合国际会议上公布。
"通过使用最初在人类语音基础上训练的语音处理模型,我们的研究打开了一扇新窗口,让我们了解如何利用迄今为止在语音处理方面所取得的成果,开始理解狗叫声的细微差别,"马大计算机科学与工程系 Janice M. Jenkins 学院教授兼人工智能实验室主任Rada Mihalcea 说。
"对于与我们共同生活在这个世界上的动物,我们还有很多不了解的地方。人工智能的进步可以用来彻底改变我们对动物交流的理解,而我们的研究结果表明,我们也许不必从头开始"。
开发能够分析动物发声的人工智能模型的主要障碍之一是缺乏公开可用的数据。虽然记录人类语音的资源和机会很多,但从动物身上收集此类数据却比较困难。
"动物的发声在逻辑上更难收集和记录,"第一作者、马萨诸塞大学计算机科学与工程系博士生 Artem Abzaliev 说。"它们必须在野外被动地记录下来,如果是家养宠物,则必须征得主人的同意"。
由于缺乏可用数据,分析狗发声的技术难以开发,而现有的技术也因缺乏训练材料而受到限制。研究人员通过重新利用现有模型克服了这些挑战,该模型最初是为分析人类语音而设计的。
这种方法使研究人员能够利用强大的模型,这些模型构成了我们今天使用的各种语音技术的支柱,包括语音到文本和语言翻译。这些模型经过训练,可以分辨出人类语音中的细微差别,如语调、音调和口音,并将这些信息转换成计算机可以用来识别所说词语、识别说话人等的格式。
"这些模型能够学习和编码人类语言和语音中极其复杂的模式,"Abzaliev 说。"我们想了解能否利用这种能力来辨别和解读狗叫声。"
研究人员使用了74只不同品种、年龄和性别的狗在各种情况下发出的声音数据集。亨伯托-佩雷斯-埃斯皮诺萨(Humberto Pérez-Espinosa)是INAOE的合作者,他领导的团队负责收集数据集。然后,阿布扎利耶夫利用这些录音修改了一个机器学习模型--一种能识别大型数据集中模式的计算机算法。该团队选择了一种名为 Wav2Vec2 的语音表示模型,该模型最初是在人类语音数据上训练出来的。
有了这个模型,研究人员就能生成从狗身上收集到的声音数据的表示,并解释这些表示。他们发现,Wav2Vec2 不仅在四项分类任务中取得了成功,而且其准确率高达 70%,超过了专门针对狗叫声数据训练的其他模型。
"这是首次将针对人类语音进行优化的技术用于帮助解码动物交流,"Mihalcea 说。"我们的研究结果表明,从人类语音中得出的声音和模式可以作为分析和理解动物发声等其他声音的声学模式的基础。"
除了建立人类语言模型作为分析动物交流的有用工具--这将使生物学家、动物行为学家等受益之外,这项研究对动物福利也有重要意义。研究人员说,了解狗发声的细微差别可以大大改善人类解读和回应狗的情感和生理需求的方式,从而加强对它们的照顾,防止潜在的危险情况发生。