今年的CVPR会议在拉斯维加斯举办(CVPR全称IEEE Conference on Computer Vision and Pattern Recognition,即IEEE国际计算机视觉与模式识别会议,是三大计算机视觉国际级会议之一),国内计算机视觉领域的公司如百度、商汤科技、图森 科技等都参会并发表论文。学界和业界的研究表明,计算机视觉已经发展到从模拟人类行为到辅助人类生活,再到帮助人类探索未知的阶段。
计算机将理解人类手势
如果给人类播放一段静音的《守望先锋》游戏战斗视频,即使是新手玩家也能根据画面想象出游戏的种种音效,甚至能够轻易依据某为英雄的动作反映出一句台词——“午时已到”,并对这些音效进行简单地模拟。
但对于计算机来说,这并非一件易事。在CVPR 2016会议现场,来自麻省理工学院(MIT)的研究人员就展示了一向“视频生成声音(Visually Indicated Sounds,VIS)”的技术。科学家向VIS输入包括46000种声音在内的1000段视频对其进行训练,并通过深度学习算法对声音进行解构,随后系统便会给静音视频配上一段它认为正确的音效。据研究人员现场介绍,计算机所模拟出的声音足以以假乱真,在此前的测试中便曾多次让人类信以为真。
能够正确理解人类手部动作,同样是人工智能感知世界的重要任务。人类可以轻易地判断“OK”或“竖起”大拇指等手势所代表的意义,但对于计算机视觉来说,这项任务仍然处于比较早期的阶段。
商汤科技高级研发工程师钱晨表示,手部姿态估计的难点,分为两部,第一部手掌整体的姿态;第二步是手指的姿态。因为手的外观和手指的姿态相关,在不知道手指的情况下,去估计手掌的姿态并不容易,近邻搜索的方法耗时太久。而普渡大学的DeepMind 技术将深度学习和近邻搜索相结合,通过深度学习,将输入映射到低维向量和类别,快速地找出手掌的姿态参数,再通过类别差异回归算法来估计手指的姿态。手掌姿态估计比传统的直接回归精度提高很多。手部姿态估计作为整个手势研究的组成部分,在实时估计的前提下,精度越高,手部动作识别的技术距离实用会越来越近,应用场景也会越来越广,对VR、游戏产业大有裨益。
无人驾驶行业将迎来变革
辅助/自动驾驶可以算是当下学界与工业界结合非常紧密、成果实践性强、讨论热度极高的一个领域。在人工智能逐渐理解人类世界之后,辅助人类的日常生活,便成为了其“理所应当”的工作。
以色列知名公司MobileEye 联合创始人Amnon Shashua认为,在2017年,高速自动续航功能将会普及,2018年到2020年,高速路上的自动驾驶将会普及,到2021年,部分都市区域会实现无人驾驶,而2023年,无人驾驶就能全部实现。
图森科技的辅助驾驶技术可以高效理解国内城市路况,可以对路上的三轮车、电瓶车等特殊车种进行识别
国内专门研究辅助驾驶的图森科技CTO侯晓迪认为,辅助驾驶、自动驾驶在中国和在欧美国家的现实差别很大,学界研究的相关技术均在一定程度上无法适用于中国的交通现状:在中国的驾驶场景中,司机不遵守交通规则的比例要远大于美国;道路线的整洁程度、道路标识是否清晰,甚至是否存在,中国城市修路频率次数繁多;中国道路的拥挤程度也不能很好地应用国外算法;在美国,自动驾驶技术如果需要取代人类出租车司机,只需将成本控制在10美元之下,但在中国就需要成本压得更低。
侯晓迪称,学术圈的欧美城市路况数据集较为齐全,甚至会有很多小城市数据集,但并没有针对中国的路况数据集,初创公司打造自己数据库的难度极大;中国高精度地图水平和国际先进水平存在差距。