AlphaGo今年棋力已大大提高可让李世石版3子

北京时间5月24日消息，昨日AlphaGo以1/4子优势战胜柯洁后，由中国围棋协会主办的人工智能论坛今天上午在浙江桐乡召开，DeepMind公司AlphaGo团队负责人大卫-席尔瓦（David Silver）在论坛上紧接公司CEO哈萨比斯的演讲，进一步详解了AlphaGo的原理。

AlphaGo团队负责人大卫-席尔瓦

席尔瓦首先对比了围棋和国际象棋的复杂度。国际象棋的每一步大约有30种可能性，而围棋每一步大约有100种可能性，这导致围棋的复杂度大大高于国际象棋，围棋棋局所有出现的可能性甚至多于全宇宙的粒子数目。所以围棋没法像使用穷举算法来解决。

卷积神经网络

那么DeepMind是如何使用AI解决围棋问题的呢？他们正是使用卷积神经网络（CNN）破解了围棋，AlphaGo可以从每一层的神经网络中对棋局进行理解，经过多代的发展，AlphaGo已经拥有了40层神经网络。

AlphaGo原理

AlphaGo利用两种神经网络——策略网络和价值网络——大大减少了计算机搜索的空间：策略网络可以减少搜索的宽度，价值网络可以减少搜索的深度。即用策略网络忽略掉每一步中不合理的下法，而价值网络可以减少机器往后搜索的步数。

围棋巨大的搜索空间，AlphaGo的目的就是减少搜索量

另外，关于本次外界关心的AlphaGo硬件问题，席尔瓦说，今年的AlphaGo相比去年的运算力大大增强。去年与李世石对战的AlphaGo使用了50个TPU，可以向下搜索50步棋，运算速度达到了每秒可计算10000个位置。而今年由于AlphaGo程序的优化，昨天与柯洁队长的AlphaGo Master仅使用了含4个TPU的服务器。而且现在的AlphaGo能够自己给自己“当老师”，它会从自己的搜索结果中去学习围棋。

新版AlphaGo通过自我对弈进行强化学习

最后，席尔瓦用AlphaGo与其他竞争对手的围棋AI程序做对比。初代AlphaGo，也就是当初战胜欧洲围棋冠军樊麾的版本，已经比Zen、Crazy Stone等程序胜出4子，AlphaGo每进化一代，都比上一代要胜出3子，也就是说昨日与柯洁对战的AlphaGo相比去年版本已经有了很大的进步。其实，早在去年年底，新版的AlphaGo就已经在围棋网络快棋对战中战胜多国高手，取得了60连胜的不败战绩。（边策）

AlphaGo的棋力进步示意图