返回上一页  首页 | cnbeta报时: 23:11:19
DeepMind团队:发明AlphaGo不是为了战胜人类
发布日期:2017-05-24 19:52:58  稿源:搜狐IT

AlphaGo和柯洁的比赛还有两场,机器围棋的能力愈发得到肯定,“人机大战”的噱头也在慢慢退去,我们更关心的是,人工智能何以达到这种水平?未来的人工智能会如何发力?5月24日中国乌镇围棋论坛的人工智能峰会上,DeepMind创始人兼CEO Demis Hassabis先生以及DeepMind资深研究员David Silver深入浅出讲解AlphaGo的原理和未来。

DeepMind 2010年在于伦敦创立,2014被Google收购,目前已经招募约500名电脑科学家和研究员。

看完这篇文章,你会了解到:

  • 为什么挑战计算机围棋?

  • 什么是深度强化学习?

  • AlphaGo如何学习?

  • 李世乭不是已经KO了吗?为什么还要再来?

  • 战胜了柯洁,阿老师的下一步是啥?

为什么挑战计算机围棋?

一直以来,围棋就被认为是传统游戏中对人工智能最具挑战性的项目。这不仅仅是因为围棋包含了庞大的搜索空间,更是因为对于落子位置的评估难度已远远超过了简单的启发式算法。自从上世纪IBM的深蓝战胜加里·卡斯帕罗夫之后,围棋被看作是“人类智慧最后的遮羞布”。

1997年,深蓝战胜当时世界排名第一的国际象棋选手卡斯帕罗夫

计算机围棋的难处在于,因为落子的可能性更多穷举搜索的可能性几乎不存在。对于纯粹的计算机运算造成了两项难题:第一是搜索空间过于庞大;其次,也是更为重要的一点,因为变数过多,难以写出评估程序来决定输赢。

国际象棋和围棋的策略穷举对比

相比于国际象棋,围棋更靠直觉而非计算。如果你在复盘阶段问一个棋手为什么这么下一步棋,他多半会告诉你“凭感觉”,反之国际象棋的职业棋手可能会告诉你他的一系列计算所得的判断。因此,将围棋的策略通过计算量化更为困难。

此外,围棋中没有等级关系,每一个棋子在结果计算中是平等的。而国际象棋中有不同的角色,对应不同的走法,每步棋的可选策略就大大减少。

和国际象棋不同,围棋是一种筑防关系,需要盘算未来关系,而国际象棋是棋子慢慢减少的过程。在棋子小于九个的时候,通过算数计算就可以判断输赢。因而,围棋对于局势的预估要求更高。

因为场景多变,在围棋中,“一子可撼全局”的局面并不罕见,一举“妙手”往往会对局势产生至关重要的改变。

所有的这些围棋的高度不确定性让围棋在之前的二十年一直成为计算机科学家希望攀登的高峰。

什么是深度强化学习?

科学家将人工智能进一步分为狭义的人工智能和广义的人工智能。上世纪著名的深蓝电脑就是狭义人工智能的代表。深蓝使用预设的国际象棋程序,通过直接输入高手的策略,然后通过搜索来完成计算。在这里,深蓝其实是总结了历史上的国际象棋棋手的所有知识,直接生搬硬套来做应用。这种方式获得的机器知识,不能迁移到其他领域的学习中。

而Demis一直在思考的问题是:人脑是如何学会完成复杂任务的?电脑能否做到这一点?制造通用学习机器也正是DeepMind目前的工作目标。

不依赖于人类的原生知识而最终获取知识的人工智能就属于广义的人工智能领域。机器直接从输入和经验中学习,没有既定的程序或者规则可循,系统需要从原始数据自己进行学习。这种算法注重于机器本身的知识习得过程,会产生属于机器的“直觉”和“创造力”,科幻一点说,是机器本身的意识形成过程。因为没有规则的限制,在更多的领域可以有所应用。

附:一些术语:

监督学习和无监督学习这两者往往共同出现。监督学习需要人类知识的介入,在给机器输入数据时打上标签,机器通过学习标签和数据的关系,输出新数据的标签预测。而无监督学习的数据输入中不带标签,机器自行学习数据的特性。有无前置的标签输入是区分监督学习和无监督学习的标志。

强化学习涉及到智能体和环境之间的互动。智能体(agent)通过观察,建立有关环境的模型,继而建立行动计划,确定最好的行动。在行动改变环境之后,重复“观察——行动”这一循环。因为在实际的操作环境中,智能体需要观察的环境往往存在噪音,因此智能体的合理行为是在慢慢强化接近设定目标的过程。

神经网络学习:这是实现深度学习的一种算法。它从信息处理角度对人脑神经元网络进行抽象,建立简单模型,通过输入、输出、节点关系和权重来表达逻辑策略,用以解决问题。

深度学习:深度学习的概念源于人工神经网络的研究,通过组合低层特征形成更加抽象的高层表示属性类别或特征,是实现人工智能的一种方式。

AlphaGo如何学习?

AlphaGo的学习策略可以总结为深度强化学习,同时结合了深度学习和强化学习。

为了应对围棋的巨大复杂性,AlphaGo的算法结合了监督学习和强化学习的优势。通过训练形成一个策略网络(policy network),将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。这一部分,初代的AlphaGo借鉴了几百年的围棋棋谱,也就是有人类原生知识的介入,因而属于监督学习。

然后,AlphaGo通过强化学习训练出一个价值网络(value network),对自我对弈进行预测,,预测所有可行落子位置的结果,以 -1(对手的绝对胜利)到1(AlphaGo的绝对胜利)来表示。至此,AlphaGo能够在棋局中判断每步棋局未来的取胜概率分布。

上述是AlphaGo的训练过程,在实际的对弈过程中,获取棋局信息后,AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为 AlphaGo 的最终选择。

这样的计算量依然很大,AlphaGo通过两种方法来减少整体的神经网络计算量。

第一是通过策略网络减少穷举搜索的宽度。在每一次进行落子计算时,它只参考通过深度学习获得的人类落子选项。换句话说,人类爸爸不干,我也不干。

其二是,用价值网络减少穷举搜索的深度。它不追求那一子落步能够达到100%的最优,而是通过建立打分体系,选择风险更低而胜率更高的落子之处。

去年不是已经PK过李世乭了吗?为什么还要再来?

Demis在演讲中明确了AlphaGo的三个版本:AlphaGo Fan(2015年10月与樊麾对弈的版本)、AlphaGo Lee(2016年3月与李世乭对弈的版本)、AlphaGo Master(2017年1月网上Master以及此次对弈柯洁的版本)。

从棋力的对比来说,目前版本的AlphaGo能让李世石版本三个子,李世石版本的AlphaGo可以让樊麾版本三个子,樊麾版AlphaGo则能让zen/疯石围棋四个子。承让三子在高手对决中已经是极大的优势。

这是微博上柯洁对于“让三子”的解读

从算法的角度来说,新版本的AlphaGo不再需要外在的棋谱输入,在设定目标(AlphaGo的学习目标是取得尽可能大的获胜几率)之后,站在AlphaGo Lee版本的知识上,从自己的搜索中学习,依靠自我博弈来进行训练。这种自我学习的能力,未来将会更多的自我迭代。

新一代AlphaGo算法的优越性还体现在硬件配备方面,他在电能消耗和硬件调动的需求上都是李世乭版本AlphaGo的十分之一。2015年的AlphaGo Fan基于GPU运行,2016年的AlphaGo Lee是通过谷歌云上的50个TPU同时运作,每秒搜索50个棋步10000个位置,而今年的AlphaGo Master在谷歌云的单台机器4个TPU上运行,这一效率的提高十分惊人。不过David Silver很诚恳地表示,这是第一代TPU而不是上周在谷歌I/O大会上发布的第二代TPU(哎呀这发TPU的安利不够到家啊)

战胜了柯洁,阿老师的下一步是啥?

Demis把公司的愿景称为人工智能的“阿波罗计划”。他们希望为测试人工智能算法搭建一个有效的平台,最终目的是把这些算法应用到更多的领域中,为社会所服务。这也是AlphaGo从棋谱学习进化为自我学习的动力所在。

当今学界和业界解决问题面临的一个巨大挑战就是信息过载,以至于难以找到其中的规律和结构,从疾病诊断到气候变暖都是如此。

Demis认为人工智能是解决这些问题的一个潜在方式。而事实上,DeepMind公司已经利用AlphaGo的部分算法优化谷歌的数据中心,减少了50%的能源消耗。

至于机器的自我意识,Demis Hassabis表示,这种科幻片里的场景恐怕在几十年内都不会出现,人工智能还有很多的关键问题没有攻克下来。

查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 23:11:19

文字版  标准版  电脑端

© 2003-2024