计算机将能看懂人类手势人机交互方式或将改变

今年的CVPR会议在拉斯维加斯举办（CVPR全称IEEE Conference on Computer Vision and Pattern Recognition，即IEEE国际计算机视觉与模式识别会议，是三大计算机视觉国际级会议之一），国内计算机视觉领域的公司如百度、商汤科技、图森科技等都参会并发表论文。学界和业界的研究表明，计算机视觉已经发展到从模拟人类行为到辅助人类生活，再到帮助人类探索未知的阶段。

计算机将理解人类手势

如果给人类播放一段静音的《守望先锋》游戏战斗视频，即使是新手玩家也能根据画面想象出游戏的种种音效，甚至能够轻易依据某为英雄的动作反映出一句台词——“午时已到”，并对这些音效进行简单地模拟。

但对于计算机来说，这并非一件易事。在CVPR 2016会议现场，来自麻省理工学院（MIT）的研究人员就展示了一向“视频生成声音（Visually Indicated Sounds，VIS）”的技术。科学家向VIS输入包括46000种声音在内的1000段视频对其进行训练，并通过深度学习算法对声音进行解构，随后系统便会给静音视频配上一段它认为正确的音效。据研究人员现场介绍，计算机所模拟出的声音足以以假乱真，在此前的测试中便曾多次让人类信以为真。

能够正确理解人类手部动作，同样是人工智能感知世界的重要任务。人类可以轻易地判断“OK”或“竖起”大拇指等手势所代表的意义，但对于计算机视觉来说，这项任务仍然处于比较早期的阶段。

商汤科技高级研发工程师钱晨表示，手部姿态估计的难点，分为两部，第一部手掌整体的姿态；第二步是手指的姿态。因为手的外观和手指的姿态相关，在不知道手指的情况下，去估计手掌的姿态并不容易，近邻搜索的方法耗时太久。而普渡大学的DeepMind 技术将深度学习和近邻搜索相结合，通过深度学习，将输入映射到低维向量和类别，快速地找出手掌的姿态参数，再通过类别差异回归算法来估计手指的姿态。手掌姿态估计比传统的直接回归精度提高很多。手部姿态估计作为整个手势研究的组成部分，在实时估计的前提下，精度越高，手部动作识别的技术距离实用会越来越近，应用场景也会越来越广，对VR、游戏产业大有裨益。

无人驾驶行业将迎来变革

辅助/自动驾驶可以算是当下学界与工业界结合非常紧密、成果实践性强、讨论热度极高的一个领域。在人工智能逐渐理解人类世界之后，辅助人类的日常生活，便成为了其“理所应当”的工作。

以色列知名公司MobileEye 联合创始人Amnon Shashua认为，在2017年，高速自动续航功能将会普及，2018年到2020年，高速路上的自动驾驶将会普及，到2021年，部分都市区域会实现无人驾驶，而2023年，无人驾驶就能全部实现。

图森科技的辅助驾驶技术可以高效理解国内城市路况，可以对路上的三轮车、电瓶车等特殊车种进行识别

国内专门研究辅助驾驶的图森科技CTO侯晓迪认为，辅助驾驶、自动驾驶在中国和在欧美国家的现实差别很大，学界研究的相关技术均在一定程度上无法适用于中国的交通现状：在中国的驾驶场景中，司机不遵守交通规则的比例要远大于美国；道路线的整洁程度、道路标识是否清晰，甚至是否存在，中国城市修路频率次数繁多；中国道路的拥挤程度也不能很好地应用国外算法；在美国，自动驾驶技术如果需要取代人类出租车司机，只需将成本控制在10美元之下，但在中国就需要成本压得更低。

侯晓迪称，学术圈的欧美城市路况数据集较为齐全，甚至会有很多小城市数据集，但并没有针对中国的路况数据集，初创公司打造自己数据库的难度极大；中国高精度地图水平和国际先进水平存在差距。