MIT最新的计算机集群系统“辨物”能力接近灵长类动物

模仿人类的视觉识别能力，是人工智能很重要的一个课题。现在，这个课题有了新突破，消息来源于MIT。由麻省理工学院教授詹姆斯•狄卡罗（麻省理工大脑和认知科学系主任）领导的一项研究，成功开发出了对物体识别速度堪比人脑的计算机模型系统。

詹姆斯·狄卡罗称，目前，神经科学在人脑如何进行视觉识别领域的研究成果是该模型系统的基础。而该模型系统的成功反证了目前神经科学家已对人脑的视觉识别机制有了正确的认识。“我们的计算机模型已经成功预测了在看到物体后，人脑的神经反应和神经群的运动。它包含了我们到目前为止对灵长类生物脑部的全部认知，甚至对之前一些神秘的脑域也有涉及。”

“对灵长类生物脑部活动认知的进步，推动了人工智能研究。将来，有可能研发出修复盲人视力的设备”，麻省理工麦戈文人脑研究院的博士后，查尔斯·卡迪耶补充到。

科学家对人脑神经网络的探索始于20世纪70年代。在视觉信息处理上，大脑以层级的方式进行图像呈现。视觉图像由视网膜输入到主视皮层最终达到颞叶皮质区域，每一层的处理都使图像更加具体，直至清晰可辨。

为了模仿这一过程，计算机模型系统也由几个不同层级构成，每层分别进行不同的数学运算，使视觉要素逐渐完整并摒弃无关信息。

“通过层层的计算和转换，经过多层次的筛选，视线内的主要物体和图像逐渐聚合，而无关的干扰因素慢慢分解并被抛弃”，卡迪耶说道。

纽约大学拥有现在最好的视觉计算机模型，其对物体的分辨能达到猕猴的水平。

更强大的处理能力

狄卡罗认为，视觉神经模拟系统的建立得益于两种技术的发展。首先是计算机运算性能的巨大进步。为了处理更华丽的游戏图形内容而生的图形处理器，也就是高性能GPU，使科学家如虎添翼。其次，如今研究者们能够用更加庞大的数据集来“训练”模拟系统的算法。这些数据集包涵几百万张图片，每一张都配有注解，比如动物、犬科动物、家狗等。

起初，视觉系统模型对图片的辨识率并不高，但随着它“看”过的照片越来越多，不断发现并纠正自己的错误，它优化了自己的算法，识别率也越来越高。狄卡罗说，连研发者都不太明白系统分辨物体的原理。

“这种事情有利有弊，”狄卡罗说到，“好处是我们不用了解系统是如何分辨物体的。但是缺点也很明显，我们没法监控它的运行、也没法知道它的内部机制。鉴于目前系统运行的非常好，我们将更多地去了解系统内部到底在发生着什么？”

接下来，他的团队计划建立模拟人类视觉其他功能的计算机模型，包括动态追踪和识别三维模型。

这一视觉模拟系统的成功是令人兴奋地，因为它能帮助神经学家更好的了解人脑复杂的结构。此外，该算法既然能用在视觉方面，那就同样可以应用在模拟其他感官系统上。如果我们掌握了该算法的规律，那就能实现对人身的全面模拟。

这就意味着，科学家们能把这个视觉模拟系统和已知的人脑神经运动结合起来，治疗自闭症或阅读障碍等疾病。另一种可行的应用是用其帮助盲人或弱视群体。“如果，你是一名盲人，你看不到面前的人，但现在借助这个系统，视觉障碍就消失了，”迪卡耶说，“视觉模拟系统将从根本上帮助盲人，因为它就像人的眼睛一样。”

尽管把此项研究成果投入实际使用仍很遥远，但是狄卡罗认为它至少在神经科学和电子技术的结合上迈出了坚实的一步。因为该系统不仅和灵长类动物大脑拥有一样的作用，更是拥有同样的结构和功能。