在第六届ImageNet图像识别大赛中,微软研究院在多个类别的评比中都取得了优胜。微软的技术胜过了谷歌、英特尔、高通和腾讯,以及多家创业公司和学术机构的系统。微软此前通过几款有趣的产品演示了这一技术,例如根据照片猜年龄的应用。此外,通过微软研究院的Project Oxford项目,微软正在推动图像识别技术的商用。
ImageNet图像识别大赛中的iPod图片
微软多名研究员,包括何开明(Kaiming He,音)、张翔宇(Xiangyu Zhang,音)、任少庆(Shaoqing Ren,音),以及孙健(Jian Sun,音),开发了这一获胜的系统。这一系统名为“面向图像识别的深度驻留学习技术”。微软在官方博客中表示,即将在一篇学术论文中公布系统的细节。
微软这一系统具有很高的复杂度。该团队表示:“我们的神经网络深达150层。我们提出了‘深度驻留学习’架构,使深度网络的优化和汇聚变得更简单。我们的‘深度驻留网络’比以往系统有着更多的层数,从而提高了准确率。许多普通网络在增加层数时也能看到类似的准确率提高。”
科技公司目前纷纷加强这一领域的研究。这些公司正在优化内部系统,以及面向用户的产品。作为高性能网络的核心,深度学习技术会利用大量数据,例如图片,去训练人工神经网络,使神经网络在面对新数据时能做出正确的反应。
微软此前通过几款有趣的产品演示了这一技术,例如根据照片猜年龄的应用。此外,通过微软研究院的Project Oxford项目,微软正在推动图像识别技术的商用。
在ImageNet挑战中,参赛系统需要准确定位来自Flickr和搜索引擎10万张照片中的对象,并将其分类为1000个类型。微软系统在分类中的错误率为3.5%,而定位的错误率为9%。
在前几年的挑战中,在分类错误率方面,谷歌、创业公司Clarifai和NEC处于领先。
在今年的挑战中,微软的系统在对象探测方面也取得了领先。孙健表示:“我们自己也不相信,这一理念会如此重要。”
百度没有出现在今年的排名中。百度的提交次数超过了允许的上限,该公司随后对此表示道歉,并解雇了要求初级工程师这样做的团队负责人。
在这项挑战中,IBM通过SoftLayer公有云服务提供了来自英伟达的GPU(图形处理单元),供参赛团队使用。