谷歌利用机器学习帮助无人驾驶汽车识别行人

雷锋网曾报道，谷歌的无人驾驶汽车已经能出门行驶了，但该车的许多技术却从未公布于众。最近，在西雅图举办的IEEE国际机器人与自动化大会（ICRA）上，与会者们见到一种新的安全设备，该设备十分难得一见，目前正由科技巨头谷歌研发。Anelia Angelova是谷歌的一名高级研究员，从事计算机视觉和机器学习的研发工作。她展示了一种新的行人检测系统，该系统可单独处理视频影像。

对于任何无人驾驶汽车来说，能识别，追踪和躲避行人是一项十分重要的功能。谷歌的车辆上就装满了激光雷达，无线电探测器和摄像机，以确保他们能够确定在数百米范围内的行人情况。

但一套感应器十分昂贵，光车顶上的一个旋转激光雷达装置就要花费将近10000美元（如果是多功能装置则花费得更多）。雷锋网此前也专门分解过无人驾驶汽车的成本。如果自动汽车仅使用廉价的摄像机就能定位行人的话，这将大大降低成本，并且将有希望很快迎来一个机器自由操控汽车的时代。但摄像机有他们自己的问题。Angelova说到，“相较于雷达装置，视觉信息给你一个更广阔的视野，但处理速度却相对较慢。”

至少它曾经是这样的。最好的视频分析系统使用的是深层神经网络，这种机器学习算法可以被训练，从而能对图像信息（和其他类型的数据）进行十分准确的分类。深层神经网络依靠多个处理层，这些处理层位于输入层和输出层之间。为了进行图像识别，输入层会学习图像的像素特征，下一层则要学习这些功能的组合，并通过中间层，逐渐形成更加精密复杂的关系。输出层则负责推测系统在关注些什么。

现代深层网络可以在诸如人脸识别等任务方面胜人一筹，准确率超过99.5%。但Angelova解释道，传统的用于行人检测的深层网络速度很慢，它将每个街道图像划分为100000个甚至更多的小碎片，然后反过来对每个碎片进行分析。这可能需要几秒钟甚至几分钟每帧，使他们无法用于城市街道的巡视。使用这种网络的汽车无法对行人进行及时的探测，可能在它发现行人的时候就已经超了过去。

Angelova的新型高速行人检测器分为三个单独的阶段。

-第一阶段是一种深层网络，相较于之前的成千上万的碎片而言，它只需将图像信息分割成几十块碎片，可在多个地点同时进行多项检测，从而对行人进行识别。

-第二个阶段则是另一种网络，它能对识别结果进行改良。

-第三阶段则是一种传统的深层网络，它将最终识别结果，即是否发现行人，进行传送。

由于这种缓慢准确的网络只对潜在图像的一小部分进行分析，所以整个处理过程就会进行得更快，大约要比之前的网络快60到100倍。Angelova说道，这些图形处理器的运行和谷歌的无人驾驶汽车十分类似，会对大约一天以内的街道图像进行反馈。然后，它可以在大约0.25秒左右的时间准确地识别行人。研究人员使用已知的行人图像数据库，而不是使用谷歌汽车的视频，因为这样他们可以将该结果同之前的网络进行比较。

Angelova承认：“事实上，目前还达不到能用于实际的0.07秒。”为了能安全采取行动，无人驾驶汽车需要在瞬间确认是否面对行人。“但这意味着倘若其他感应器失灵，新系统能做出及时的补充处理。”

随着更强大的处理器的出现以及神经网络容量的增加，Angelova预计该功能的效果将会显著提升。她说：“从更加广阔的视角来看待网络，你将能感受到更加快速的发展。”等到大家都能拥有无人驾驶汽车时，其独特的旋转激光雷达可能已经完全消失了。