论计算机图像识别的局限 - cnBeta.COM 移动版(WAP)

计算机目前已经能够做到非常出色的视觉识别，它们有时候在一系列图像中识别某个物体的能力已经跟人类差不多。但是，类似的最终结果是否意味着计算机能够模拟人类的视觉系统呢？事实上，电脑系统在某些领域上还是比不上人类的。日前，发表在《美国国家科学院院刊》上的一篇论文中提到了计算机和人类视觉之间的不同之处。

文中表示：“这两者之间真正的差异可以归结为灵活性。”人类的大脑比计算机要灵活得多，而这也是语音识别系统面临的问题。

人类可以根据只言片语推测出某句话的意思，也能够根据一些线索拼凑出一个模糊的图像，而计算机在这两个方面都无法做到这个程度，甚至会出现“不知所措”的情况。

据了解，研究人员使用了一组模糊的、复杂的图像来确定计算机视觉模型和人的大脑之间的差异。他们使用的图像被称为“可识别的最小结构(MIRCs)”，它们要么太小，要么分辨率太低，再缩小一点的话即使是人类也无法识别出来。

研究人员通过一系列逐渐变小、分辨率逐渐降低的图像展示给成千上万的网友，并确定能够被识别的最后一个等级的图像，这就是 MIRC，比它还要低一个等级的、无法识别的图像则被称为 sub-MIRC。

很显然，人类和计算机的比较就从识别 MIRC 和 sub-MIRC 开始。为了测试这一点，研究人员发现，人类对 MIRCs 的识别率达到了 65%，sub-MIRCs 的正确识别率则低于 20%。计算机模型的表现则没有那么好，他们对这两者的正确识别率仅为 7% 和 2%。因此，人类在这次对比中获得了胜利。

另外，人类和计算机在开始失败时的方式也存在一个戏剧性的差异。人类对图像的识别出现了突然跌落，最后一个可识别的图像的正确率为 93%，但是经过一个小小的改变之后，sub-MIRCs 的正确识别率仅为 3%。而计算机则没有出现这种急剧下降的情况，作者表示：“没有任何一个模型能够复制人类在识别过程中的急剧下降。”

虽然计算机在经过训练之后，在 MIRCs 的识别上会有所改善，但是其准确性仍然无法跟人类相比。作者认为，这是因为计算机不能够把图像中的各个组成部分识别出来，但是人类就可以。

总体而言，计算机在图像识别方面已经做得很好，但是跟人类识别图像的过程并不相同。它们无法使用图像的某个部分来解决问题，在利用最少信息量来识别图像方面也无法跟人类相比。