计算机目前已经能够做到非常出色的视觉识别,它们有时候在一系列图像中识别某个物体的能力已经跟人类差不多。但是,类似的最终结果是否意味着计算机能够模拟人类的视觉系统呢?事实上,电脑系统在某些领域上还是比不上人类的。日前,发表在《美国国家科学院院刊》上的一篇论文中提到了计算机和人类视觉之间的不同之处。
文中表示:“这两者之间真正的差异可以归结为灵活性。”人类的大脑比计算机要灵活得多,而这也是语音识别系统面临的问题。
人类可以根据只言片语推测出某句话的意思,也能够根据一些线索拼凑出一个模糊的图像,而计算机在这两个方面都无法做到这个程度,甚至会出现“不知所措”的情况。
据了解,研究人员使用了一组模糊的、复杂的图像来确定计算机视觉模型和人的大脑之间的差异。他们使用的图像被称为“可识别的最小结构(MIRCs)”,它们要么太小,要么分辨率太低,再缩小一点的话即使是人类也无法识别出来。
研究人员通过一系列逐渐变小、分辨率逐渐降低的图像展示给成千上万的网友,并确定能够被识别的最后一个等级的图像,这就是 MIRC,比它还要低一个等级的、无法识别的图像则被称为 sub-MIRC。
很显然,人类和计算机的比较就从识别 MIRC 和 sub-MIRC 开始。为了测试这一点,研究人员发现,人类对 MIRCs 的识别率达到了 65%,sub-MIRCs 的正确识别率则低于 20%。计算机模型的表现则没有那么好,他们对这两者的正确识别率仅为 7% 和 2%。因此,人类在这次对比中获得了胜利。
另外,人类和计算机在开始失败时的方式也存在一个戏剧性的差异。人类对图像的识别出现了突然跌落,最后一个可识别的图像的正确率为 93%,但是经过一个小小的改变之后,sub-MIRCs 的正确识别率仅为 3%。而计算机则没有出现这种急剧下降的情况,作者表示:“没有任何一个模型能够复制人类在识别过程中的急剧下降。”
虽然计算机在经过训练之后,在 MIRCs 的识别上会有所改善,但是其准确性仍然无法跟人类相比。作者认为,这是因为计算机不能够把图像中的各个组成部分识别出来,但是人类就可以。
总体而言,计算机在图像识别方面已经做得很好,但是跟人类识别图像的过程并不相同。它们无法使用图像的某个部分来解决问题,在利用最少信息量来识别图像方面也无法跟人类相比。