大厂AI,想先读懂猫狗?

摘要:

2005年,在Google尚未退出中国大陆时,百度曾喊出:“百度更懂中文”。再后来,在2017年的百度世界大会上,李彦宏说百度要从“更懂中文”,变成“百度更懂你”。八年后,百度可能要说“更懂动物了”。

五一长假之后,媒体通过天眼查App了解到,百度刚刚申请了一项专利,内容是“动物语言转换方法、装置、电子设备及存储介质”。

把这项专利内容翻译成大白话大概是这样的:百度通过记录猫狗等动物的声音、行为和体征,将其生成一套多模态数据系统,据此再对动物情绪进行识别,同时翻译成人类语言输出。

百度专利称,该技术能够实现动物与人类之间更深层次的情感交流和理解,提高了跨物种沟通的准确性和效率。

刷到这则新闻时,我正好和一位养猫的朋友在一起,我问他家里猫叫的时候,能知道它想干什么,他说猫基本上只有有事的时候才会叫,但他无法把某种具体的猫叫声和猫的意图进行准确对应。

猫狗情绪研究原理

在百度公布这项专利前的一个月,印度普拉迪卡兰拉姆克里希纳·莫尔学院的两位学者维贾伊·苏尼尔·贾达夫和桑托什·贾格特,发表了一篇论文,内容和百度专利非常相似:“利用人工智能进行动物面部检测以理解其情绪和行为”。




这篇论文回顾了过往AI学者对动物表情的代表性研究:

在一项涉及狗面部表情的案例研究中,数据集训练卷积神经网络(CNN)在一万张图像的数据集上进行训练。该模型在区分快乐、恐惧和中性表情方面达到了88%的准确率,核心贡献是发现狗狗独特的特征,如耳朵的位置、口型和眼睛睁开程度,是情绪状态的关键指标。

另一项研究则将类似的方法应用于猫,在5000张猫咪面部表情图像上进行训练,但准确率比狗略低,为80%,表明猫科动物的表达面临特殊挑战。猫的情绪状态受到外界刺激的影响比狗要大,使数据收集变得复杂。此外,猫在面部表情上表现出微妙的变化,使得检测更具挑战性。

这两项研究证实了许多人的猜测:无论猫还是狗,它们的表情都能反映情绪。狗可以表现出快乐,恐惧,焦虑,甚至嫉妒的迹象。认识到这些情绪可以提高训练和行为矫正技术。猫的表情比狗要复杂,但结合肢体语言,你也能窥探到它们的快乐、沮丧和压力这些内心戏。

从人脸识别到读心术

当前的AI技术对人脸和情绪识别准确率已经趋于成熟,通过分析语音的音调、语速、音量、停顿等特征,AI可以较为准确地判断说话者的情绪(如愤怒、快乐、悲伤、惊讶等)。在标准数据集上,准确率可达70%以上;利用计算机视觉技术,分析面部肌肉运动,如微笑、皱眉、瞪眼等,情绪判断的准确率在理想条件下可达90%以上。

最前沿的情绪识别系统往往融合语音、图像、文本和生理信号等多种数据源,并且已进入实用化阶段,广泛应用于智能客服、健康医疗、车载安全、教育娱乐等领域。

人类情绪识别技术已经开始进入商用,智能手表、健康手环等可监测用户生理信号,分析压力、焦虑、愉悦等情绪状态,提供健康建议;微软通过Microsoft Azure Emotion API提供基于云的面部表情识别服务;初创公司Affectiva(已被Smart Eye收购)则专注于车载和广告领域的情绪识别。Amazon Alexa阿里小蜜、百度度秘等语音助手均集成了情绪识别模块。

但考虑到用户隐私和伦理的问题,基于人类面部特征的商业化短期内不太可能走得太远。

2020年,有中小学引入AI摄像头监测学生上课表情、情绪,家长和社会质疑侵犯学生隐私、加剧心理压力,最终被叫停,教育部等部门明确要求规范AI在校园的应用,保护未成年人权益。2022年,部分企业、法院试点用AI分析面试者、被告情绪,媒体和专家质疑科学性和伦理风险。

海外大厂早已布局动物情绪研究

把对人情绪识别能力复用到动物身上,只是时间问题。百度并非先行者。亚马逊、Google、PetPace、Petronics等公司早在好几年前,就曾申请过与动物声音识别、情感分析相关的专利。

Google在2017年就申请了一项与动物情绪识别相关的专利,该专利提出了一种利用传感器和机器学习技术,对动物的情绪和健康状态进行分析的方法和系统。Google的专利推动了动物情绪识别领域的技术发展,相关思路和方法被PetPace、Whistle等宠物科技公司借鉴和应用。

亚马逊在2020年提交的专利,设计了一套通过摄像头、麦克风、可穿戴设备收集动物的声音、面部表情、身体姿态等多模态数据,结合AI算法识别动物的快乐、焦虑、疼痛等情绪,并通过语音助手或显示屏向人类用户传达的系统。利用语音合成或文本方式将动物的“情感”翻译成人类语言。

但这对动物的情绪研究还处于非常初级的阶段。

最大挑战在于,人类和动物的情绪表达方式差异巨大。动物的情绪表达方式高度依赖物种、品种、个体,缺乏统一的“表情语言”,如狗的摇尾巴、猫的呼噜、马的耳朵动作等,难以直接类比人类。而在不同动物之间,生理结构、行为习惯、情绪表达方式差异极大,模型泛化能力有限。

另一个直接原因则是缺乏高质量标注数据,人类情绪有大量公开数据集(如FER、IEMOCAP等),而动物情绪的数据集稀缺,且标注主观性强,依赖专家经验。人类情绪有“快乐、愤怒、悲伤”等标准标签,动物的“情绪”更多是行为状态(如警觉、放松、攻击、求偶等),难以一一对应。

宠物经济,想象的蓝海

过去,研究动物表情的主要是兽医,主要为了方便给动物看病和行为矫正。那么,现在当Google、亚马逊、微软、百度等科技公司来关心动物表情,他们的用意何在?

最大的推动因素还是商业利益驱动。据Global Market Insight发布的报告,早在2022年,全球宠物市场规模已达到2610亿美元。

在中国,宠物增长的曲线却是昂扬向上。据《2025年中国宠物行业白皮书》显示,2024年中国宠物数量超1.2亿只,已经超过4岁以下的婴儿数量,城镇(犬猫)消费市场规模突破3000亿元。

无论对于欧美的存量市场,还是中国的增量市场,对人类的情绪识别、健康监测等AI技术日趋成熟,向动物领域迁移成为必然。

宠物主对宠物健康、情感、陪伴的关注度大幅提升,宠物主希望更好地“理解”宠物,减少误解和焦虑,提升陪伴体验。科技公司通过情绪识别技术,帮助用户与宠物建立更深层次的情感纽带,情绪识别也能成为差异化卖点。

就像推进生成式AI一样,在宠物情绪识别上,百度在国内再一次起了大早。但是不是能赶上大集?从当前的情况看,包括情绪识别在内的宠物市场可能并没有想象的那样大。

在口罩期间,随着经济下滑,美国、英国等国也出现了宠物数量下滑。所以,以“用户数”来计算,全球的家养宠物数量可能已经处于顶峰,跟当前互联网用户数增长见顶类似。

从市场规模看,宠物经济只是诸多垂直赛道之一,当前全球2600亿美元的规模,只是汽车、医疗、食品这样的大行业的十分之一甚至更小的零头,但又与全球白色家电、网络游戏的市场规模相当,整体上看属于规模中等偏上的行业。

宠物经济也是典型的顺周期行业,其基础是养宠家庭数量和人均宠物消费,当经济下行、收入减少时,宠物消费易被削减。欧美等成熟市场养宠渗透率已达60%~70%,中国等新兴市场虽有提升空间,但最终也会趋于稳定。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan