2018 年时就曾有报道,有证据表明,领先的人脸分析算法对肤色较深的人的准确性较低,此后,包括Google和 Meta 在内的公司采用了肤色测量方法来测试其人工智能软件的有效性。索尼公司的最新研究表明,这些测试对人类肤色多样性的一个重要方面视而不见。
索尼公司的研究人员表示,目前常用的肤色测量方法仅使用从最浅到最深或从白到黑的滑动尺度来表示肤色,从而忽略了黄色和红色色调对人类肤色范围的影响。他们发现,生成式人工智能系统、图像抓取算法和照片分析工具在处理较黄的皮肤时都特别吃力。同样的弱点也可能适用于各种已被证实准确性会受肤色影响的技术,如用于人脸识别、身体跟踪和深度伪造检测的人工智能软件,或心率监测器和运动探测器等小工具。
索尼公司首席研究科学家兼人工智能伦理全球负责人爱丽丝-项(Alice Xiang)说:"如果只是以这种非常单一的方式对产品进行评估,那么就会有很多偏见没有被发现和减轻。我们的希望是,我们在这里所做的工作可以帮助取代一些现有的肤色量表,这些量表实际上只关注浅色与深色。"
但并非所有人都确信,现有的选择不足以对人工智能系统进行分级。哈佛大学社会学家埃利斯-蒙克(Ellis Monk)说,他去年与Google一起推出的由10种肤色组成的调色板,提供了从浅到深的选项,但这并不是单一维度的。蒙克说:"我必须承认,我对之前这方面的研究忽略了底色和色调的说法感到有些困惑。研究工作致力于决定在量表中优先考虑哪些肤色,以及在哪些点上优先考虑哪些肤色。他根据自己对肤色歧视的研究,并在咨询了其他专家和来自代表性不足社区的人之后,选择了他的量表中的 10 种肤色。"
X. 人工智能伦理咨询公司 Malo Santo 的首席执行官、Google肤色研究团队的创始人 Eyeé 表示,蒙克量表从未打算作为最终解决方案,并称索尼的工作是重要的进步。但 Eyeé 也提醒说,相机定位会影响图像中的 CIELAB 颜色值,这是导致该标准成为潜在不可靠参考点的几个问题之一。Eyeé说:"在我们将皮肤色调测量应用于现实世界的人工智能算法(如相机滤镜和视频会议)之前,还需要做更多的工作来确保测量的一致性。"
关于量表的争论不仅仅是学术性的。找到人工智能研究人员所说的"公平性"的适当衡量标准,是科技行业的当务之急,因为欧盟和美国等国的立法者正在讨论要求公司对其人工智能系统进行审计,并指出风险和缺陷。索尼公司的研究人员说,不健全的评估方法可能会削弱法规的一些实际好处。
关于肤色,Xiang 说,制定更多改进措施的努力是有必要的:"我们需要不断尝试,以取得进展。根据不同的情况,不同的措施可能会被证明是有用的。我很高兴,在长期被忽视之后,人们对这一领域的兴趣与日俱增。"
Google发言人布莱恩-加布里埃尔(Brian Gabriel)则表示,公司欢迎这项新研究,并正在对其进行审查。
人的肤色来自于光线与蛋白质、血细胞以及黑色素等色素的相互作用。测试算法是否因肤色而产生偏差的标准方法是检查算法在不同肤色上的表现,从最浅到最深的六个选项被称为菲茨帕特里克量表。该量表最初由皮肤科医生开发,用于评估皮肤对紫外线的反应。去年,科技界的人工智能研究人员对Google推出的蒙克量表大加赞赏,称其更具包容性。
索尼公司的研究人员在本周于巴黎举行的国际计算机视觉会议(International Conference on Computer Vision)上提交的一份研究报告中称,用于照片编辑和制造的国际色彩标准 CIELAB 为表现皮肤的广泛光谱提供了一种更忠实的方法。当他们应用 CIELAB 标准分析不同人的照片时,发现他们的皮肤不仅在色调(颜色的深度)上存在差异,而且在色相(即颜色的渐变)上也存在差异。
不能正确捕捉人体皮肤中红色和黄色色调的肤色尺度似乎帮助了一些偏差在图像算法中不被发现。索尼公司的研究人员测试了开源人工智能系统,包括Twitter开发的图像捕捉器和一对图像生成算法,他们发现这些算法偏爱红色皮肤,这意味着在算法输出的最终图像中,大量皮肤偏黄的人没有得到充分体现。这有可能使包括东亚、南亚、拉丁美洲和中东在内的不同人群处于不利地位。
索尼公司的研究人员提出了一种表现肤色的新方法,以捕捉以前被忽视的多样性。他们的系统使用两个坐标而不是一个数字来描述图像中的肤色。它既指定了肤色从浅到深的位置,也指定了从黄到红的位置,即化妆品行业有时所说的从暖到冷的底色。
新方法的工作原理是分离图像中显示皮肤的所有像素,将每个像素的 RGB 颜色值转换为 CIELAB 代码,然后计算皮肤像素群的平均色调和色调。研究中的一个例子显示,前美国橄榄球明星特雷尔-欧文斯和已故女演员伊娃-嘉宝的明显头像具有相同的肤色,但色调不同,欧文斯的图像偏红,嘉宝的图像偏黄。
不能正确捕捉人体皮肤红色和黄色色调的色标有助于图像算法中的偏差不被发现。
当索尼团队将他们的方法应用于网上的数据和人工智能系统时,他们发现了重大问题。研究人员发现,CelebAMask-HQ(一个用于训练面部识别和其他计算机视觉程序的流行名人面孔数据集)有 82% 的图像偏向红色肤色,而另一个由 NVIDIA 开发的数据集 FFHQ 有 66% 偏向红色。在 FFHQ 上训练的两个人工智能生成模型再现了这种偏差: 它们各自生成的每五张图像中,约有四张偏向红色色调。
问题还不止于此。根据索尼公司的研究,当要求人工智能程序 ArcFace、FaceNet 和 Dlib 识别两张肖像是否对应同一个人时,它们在红色皮肤上的表现更好。Dlib的开发者戴维斯-金(Davis King)说,他对这种偏差并不感到惊讶,因为该模型主要是在美国名人照片上训练出来的。
微软 Azure 和亚马逊网络服务公司提供的用于检测微笑的云人工智能工具在较红的色调上也有较好的效果。微软负责人工智能工程的萨拉-伯德(Sarah Bird)说,公司一直在加强对公平性和透明度的投资。亚马逊发言人帕特里克-尼霍恩(Patrick Neighorn)说:"我们欢迎与研究界合作,我们正在仔细审查这项研究。"NVIDIA 则拒绝发表评论。
作为一个黄皮肤的人,Xiang 对揭示当今人工智能测试方式的局限性非常关注。她表示,索尼将使用新系统分析自己的以人为本的计算机视觉模型,因为这些模型需要接受审查,但她拒绝具体说明是哪些模型。"我们每个人的皮肤都有不同的色调。这不应该被用来歧视我们,"她说。
索尼的做法还有一个潜在优势。像Google的蒙克量表(Monk scale)这样的测量方法需要人类对特定个体的皮肤在光谱中的位置进行分类。人工智能开发人员说,这是一项会带来变数的任务,因为人们的看法会受到所在位置或自身种族和身份观念的影响。
索尼的方法是完全自动化的,不需要人工判断。但哈佛大学的蒙克质疑这是否更好。像索尼这样的客观测量方法最终可能会简化或忽略人类多样性的其他复杂性。他说:"如果我们的目标是剔除偏见,而偏见也是一种社会现象,那么我就不太确定我们是否应该从分析中剔除人类是如何从社会角度看待肤色的。"