阿尔法狗deepmind名义

2014年起,阿尔法狗(AlphaGo)以英国棋友deepmind的名义开始在弈城围棋网上对弈.deepmind在2014年4月到2015年9月长达1年半的时间里,维持在7D到图8D之间,总共下了300多盘棋。2015年9月16日首次升上9D,之后在AlphaGo与樊麾对弈前后的三个月内未进行网络对弈。2015年12月到2016年2月,deepmind一共下了136盘,基本在9D水平。其中和职业棋手的多次对局互有胜负。

黄士杰在AlphaGo与李世石九段比赛前曾否认deepmind是AlphaGo的测试账号,但是在AlphaGo与李世石比赛之后,DeepMind创始人哈萨比斯承认AlphaGo曾经使用deepmind账号进行过测试。

2016年12月16日,在AlphaGo以万事达身份登录弈城围棋网之前,黄士杰要求删除deepmind账号。现在deepmind的战绩和棋谱已经无法查阅。

中国乌镇围棋峰会

2016年6月4日,在第37届世界业余围棋锦标赛新闻发布会上,国际围棋联盟事务总长杨俊安透露今年内阿尔法狗(AlphaGo)或将挑战中国职业棋士柯洁九段。不过DeepMind创办人杰米斯·哈萨比斯表示目前还没有确定AlphaGo的下一步计划,一旦有明确的安排,会有官方声明。

2016年12月8日,第21届三星车险杯世界围棋大师赛决赛过后,柯洁九段表示:「目前棋士之间的比赛众多,我放弃了与DeepZenGo的对局我觉得,我现在的状态还不能打败『阿尔法狗』(AlphaGo),今后需要更加努力。」

2017年4月10日,中国围棋协会,谷歌和浙江省体育局联合在中国棋院召开新闻发布会,宣布以柯洁为首的中国棋士将和AlphaGo在5月23至27日的中国乌镇围棋峰会上对弈。此次对弈分为三场比赛,首先在5月23,25和27日这三天,柯洁将与AlphaGo下三番棋,用时为每方3小时,5次1分钟读秒。

谷歌DeepMind为本次柯洁与AlphaGo的三局比赛提供了150万美元的胜者奖金,同时柯洁有30万美元的出场费。此外在5月26日,时越,芈昱廷,唐韦星,陈耀烨和周睿羊5人将进行团队赛,他们将联合与AlphaGo对弈,用时为每方2小时30分钟,3次1分钟读秒。

同日,古力,连笑还将和AlphaGo合作进行人机配对赛,比赛将以棋士与AlphaGo合作的形式进行,用时为每方1小时,1次1分钟读秒最终,AlphaGo以3:0战胜柯洁,并被中国围棋协会授予职业围棋九段称号,不过聂卫平九段称它水平「至少20段」在结束与柯洁的比赛后,Deepmind宣布AlphaGo将「退役」,不再参加任何围棋比赛,但将公开AlphaGo自己与自己互弈的棋谱;而在未来Deepmind将会把AlphaGo的技术运用到医疗等更广泛的领域。

AlphaGo模拟是什么

模拟就是阿尔法狗(AlphaGo)自己和自己下棋,相当于棋手在脑袋中的推演,就是棋手说的“计算”。

阿尔法狗AlphaGo面对当前局面,会用某种(下面会讲)策略,自己和自己下其中有两种策略:往后下几步(提前终止,因为阿尔法狗AlphaGo有一定判断形势的能力);或者一直下到终局(终局形势判断相对简单,对于棋手简单,对于机器还有一定难度,但是这个问题已经基本解决)。对于棋手来说就是推演棋局。

AlphaGo会模拟多次,“不止一次”。越来越多的模拟会使AlphaGo的推演“越来越深”(一开始就1步,后来可能是几十步),对当前局面的判断“越来越准”(因为她知道了后面局面变化的结果,她会追溯到前面的局面,更新对前面局面的判断),使后面的模拟‘越来越强’(更接近于正解,她后面模拟出来的着法会越来越强)。怎么做到的?看她怎么模拟的。

注意,这里的模拟是下棋(线上)时的模拟,后面还会有个学习时的模拟,不要混淆了。

AlphaGo怎么模拟的?

每次模拟中,AlphaGo自己和自己下。每步中由一个函数决定该下哪一步。函数中包括了以下几个方面:这个局面大概该怎么下(选点:policy net),下这步会导致什么样的局面,我赢得概率是多少(形势判断:value net和rollout小模拟),鼓励探索没模拟过的招法。这些英文名词后面会有解释。

模拟完一次后,阿尔法狗AlphaGo会记住模拟到棋局,比如几步以后的棋局。并且计算这时政策的价值。因为这时已经更接近终局了,这时的值会更加准确(相对于前面的模拟或局面).阿尔法狗AlphaGo还会用这些更准的值更新这个函数,函数值就越来越准了,所以模拟的每一步越来越接近正解(最优的下法),整个模拟越来越接近黑白双方的最优下法(主变化,Principle variation),就像围棋书上的正解图一样。到此为止,你已经大概了解AlphaGo她怎么工作的了,下面只是一些细节和数学了。

AlphaGo是如何学习的?

阿尔法狗的学习依赖于深度学习Deep Learning and增强学习强化学习,合起来就是Deep Reinforcement Learning。这实际上当前人工智能界最前沿的研究方向。

关于阿尔法狗深度学习和增强学习,本文不做详细的介绍。阿尔法狗深度神经网络是由巨量的参数形成的一个多层的神经网络,输入某一种类型的数据,输出某一种特定的结果,根据输出的误差,计算并更新神经网络的参数,从而减少误差,从而使得利用神经网络,特定的输入可以得到特定想要的结果。

以深度模拟“脑”为例。这个实际上是一个12层的神经网络。输入主要是整个棋盘的19 * 19的信息(比如黑棋的信息,白棋的信息,空着的信息,还有其他一些和围棋规则有关的信息一共48种)。输出要求是下一步的落子。那么Google Deepmind拥有3000万个落子的数据,这就是训练集,根据输出的误差就可以进行神​​经网络的训练。结束达到57%的正确率。也就是说输入一个棋盘的棋局状态,输出的落子有一半以上选择了和人类高手一样的落子方式。从某种意义上讲,就是这个神经网络领悟了棋局,从而能够得到和人类高手一样的落子方法。

换另一个角度看会觉得阿尔法狗AlphaGo很可怕,因为这个神经网络本来是用在计算机视觉上的。神经网络的输入是棋盘,就类似为阿尔法狗AlphaGo是看着棋盘学习的。

接下来的自学成长“脑”采用阿尔法狗深度算法增强学习(deep reinforcement learning)来更新深度神经网络的参数。通过反复和过去的“自己”下棋来获得数据,通过输赢来判断好坏,根据好坏结果计算策略梯度,从而更新参数。通过反复的自学,我们看到自学成长“脑”可以80%胜率战胜深度模仿“脑”,说明了这种学习的成功,进一步说明自学成长“脑”自己产生了新的下棋方法,形成了自己的一套更强的下棋风格。

AlphaGo是如何下棋的?

在分析AlphaGo是如何下棋之前,我们先来看看一下人类棋手会怎么下棋:

第1步:分析判断全局的形势

第二步:分析判断局部的棋局找到几个可能的落子点

第3步:预测接下来几步的棋局变化,判断并选择最佳的落子点。

那么,阿尔法狗AlphaGo在拥有强大的神经网络”大脑“的基础上采用蒙特卡洛树搜索来获取最佳的落子点,本质上和人类的做法是接近的。

首先是采用蒙特卡洛树搜索的基本思想,其实很简单:

多次模拟未来的棋局,然后选择在模拟中选择次数最多的走法

阿尔法狗AlphaGo具体的下棋基本思想如下(忽略掉一些技术细节比如拓展叶节点):

第1步:基于深度模仿“脑”来预测未来的下一步走法,直到L步。

第二步:结合两种方式来对未来到L的走势进行评估,一个是使用全局分析“脑”进行评估,判断赢面,一个是使用快速感知“脑”做进一步的预测直到比赛结束得到模拟的结果。综合两者对预测到未来大号步走法进行评估。

第3步:评估完,将评估结果作为当前棋局下的下一步走法的估值。即给一开始给出的下一步走法根据未来的走向进行评估。

第四步:结合下一步走法的估值和深度模仿脑进行再一次的模拟,如果出现同样的走法,则对走法的估值取平均(蒙特卡洛的思想在这里)

反复循环上面的步骤到Ñ次。然后选择选择次数最多的走法作为下一步。

说的有点复杂,简单的讲就是综合全局和具体走法的计算分析,对下一步棋进行模拟,找到最佳的下一步。对步子的选择,既要依赖于全局分析“脑”的判断,也需要深度模仿“脑”的判断。

分析到这里,大家就可以理解为什么在阿尔法狗AlphaGo与范辉的比赛中,有一些阿尔法狗AlphaGo的落子并不仅仅考虑局部的战术,也考虑了整体的战略。

知道了阿尔法狗的具体下棋方法之后,我们会明白让阿尔法狗AlphaGo棋力如此之强的还是在于AlphaGo的几个深度神经网络上。

AlphaGo的”大脑“是怎样的?

深度神经网络是阿尔法狗的”大脑‘我们先把它当做一个黑匣子,有输入端,也有输出端,中间具体怎么处理先不考虑那么阿尔法狗的’大脑“实际上分成了四大部分:

推出政策快速感知“脑”:用于快速的感知围棋的盘面,获取较优的下棋选择,类似于人观察盘面获得的第一反应,准确度不高

SL Policy Network深度模仿“脑”:通过人类6-9段高手的棋局来进行模仿学习得到的脑区。这个深度模仿“脑”能够根据盘面产生类似人类棋手的走法。

RL Policy Network自学成长“脑”:以深度模仿“脑”为基础,通过不断的与之前的“自己”训练提高下棋的水平。

Value Network全局分析“脑”:利用自学成长“脑”学习对整个盘面的赢面判断,实现从全局分析整个棋局。

所以,阿尔法狗的“大脑”实际上有四个脑区,每个脑区的功能不一样,但对比一下发现这些能力基本对于人类棋手下棋所需的不同思维,既包含局部的计算,也包含全局的分析。其中的政策网络用于具体每一步棋的优劣判断,而Value Network则对整个棋局进行形势的判断。

而且很重要的是,阿尔法狗提升棋力首先是依靠模仿,也就是基于深度模仿“脑”来进行自我水平的提升。这和人类的学习方式其实是一模一样的。一开始都是模仿别人的下法,然后慢慢的产生自己的下法。

那么这些不同的脑区的性能如何呢?

快速感知“脑”对下棋选择的判断对比人类高手的下棋选择只有24.2%的正确率

深度模仿“脑”对下棋选择的判断对比人类高手的下棋选择只有57.0%的正确率,也就是使用深度模仿“脑”,本身就有一半以上的几率选择和人类高手一样的走法。

自学成长“脑”在经过不断的自学改进之后,与深度模仿“脑”进行比赛,竟然达到80%的胜利。这本质上说明了通过自我学习,在下棋水平上取得了巨大的提升。

全局分析“脑”使用自学成长“脑”学习训练后,对全局局势的判断均方差在0.22〜0.23之间。也就是有大约80%的概率对局面的形势判断是对的。这是阿尔法狗能够达到职业棋手水准的关键所在。

从上面的分析可以看到阿尔法狗的不同“脑区”的强大。

解密Google Deepmind AlphaGo围棋算法

2016年1月28日,Google Deepmind在Nature上发布宣布其人工智能围棋系统阿尔法狗历史性的战胜人类的职业围棋选手!这条重磅新闻无疑引起了围棋界和人工智能界的广泛关注!3月份AlphaGo对阵李世石的比赛更将引起全人类的目光!

是什么使围棋算法产生了质的飞跃?要知道,在之前阿尔法狗最好的围棋程序也只能达到业余人类棋手的水平。是真的人工智能产生了吗?

对于大多数人来说,大家都知道1997年年的“深蓝”计算机战胜了人类的国际象棋冠军卡斯帕罗夫,但是大家都不会认为“深蓝”真正拥有了人工智能,道理非常简单:国际象棋(当然围棋也是)每一步都是可见的,在一个确定性的棋局下,仅有有限个走法。这有限个走法中必然有一个最优的。一个基本的想法就是对棋局进行预测,遍历每一种走法直到一方胜出,然后回退计算每一个可能赢的概率,最后使用概率最高的作为最优的走法。“深蓝”就做了这么件事,暴力穷举所有的步子,然后找最优!赢了人类,但没有智能,因为整个算法完全就是人工设计的一个算法,根本看不到智能在哪里。

显然围棋理论上也可以暴力破解,但是问题就在于围棋的可走的步子太多了,以至于目前的计算性能根本做不到暴力破解。这也就是为什么围棋是挡在人工智能阿尔法狗面前的一个重大挑战。

要使围棋程序战胜人类顶尖高手,只有依靠真正的人工智能程序阿尔法狗!对围棋有了解的朋友都知道下围棋需要对整个棋局有直观的理解,这就是围棋困难的地方。除非计算机真正理解了棋局,才有可能有大局观,才有可能下出真正的好棋!

十分钟看懂AlphaGo的核心算法

围棋是一个完全信息博弈问题。而完全信息博弈,通常能被简化为寻找最优值的树搜索问题。它含有b的d次方个可能分支,在国际象棋中b≈35,d≈80;而在围棋中b≈250,d≈150。很显然,对于围棋,用穷举法或简单的寻路阿尔法狗算法(heuristics)是行不通的。但有效的方法是存在的:

从策略(policy)P(a | s)中取样行动,降低搜索广度

通过位置评估降低搜索深度

把策略和值用蒙特卡洛树搜索(MCTS)结合起来。

阿尔法狗通常的步骤是:

用一个13层的CNN,直接从人类棋步中训练一个监督学习策略网络Pσ。输入为48 x 19 x 19的图像(比方说,它的组成棋子颜色是3 x 19 x 19),输出是使用softmax层预测的全部落子的概率。精确度是55.7%。

阿尔法狗训练一个能在运行时快速取样动作的快速策略Pπ。这会用一个基于小型模式特征的线性softmax。精确度是24.2%,但它计算一次落子只用2微秒,而不像Pσ需要3毫秒。

训练一个增强学习策略网络Pρ,阿尔法狗通过优化博弈结果来进一步提升监督策略网络。这把策略网络向赢棋优化,而不是优化预测精确度。本质上,Pρ与Pσ的结构是一样的。它们的权重使用相同值ρ=σ初始化。对弈的两个选手,是当前策略网络Pρ和随机(防止过拟合)选择的此前的策略网络迭代。

训练一个价值网络(价值网络)Vθ,来预测强化学习策略网络自己和自己下棋的赢家。该网络的架构和策略网络类似,但多出一个特征平面(当前玩家的颜色),并且输出变成了单一预测(回归,均方差损失)。根据阿尔法狗的完整棋局来预测对弈结果,很容易导致过拟合。这是由于连续落子位置之间高度相关,只有一子之差。因此,这里使用了强化学习策略网络自己与自己对弈新生成的数据。该数据从包含3000万个不同位置的独立棋局中抽取。

把策略网络,价值网络,快速策略和蒙特卡洛树搜索结合起来一个标准的蒙特卡洛树搜索过程包含四步:。阿尔法狗的选择,扩展,评估,备份为了让大家更容易理解,我们只粗略讲了讲它如何在模拟中选择状态的部分(如对数学感兴趣,请到原始论文中找公式)。

阿尔法狗状态分数=价值网络输出+快速运行(快速推出)的策略结果+监督学习策略网络输出。

高状态得分(或者说落子)会被选择。价值网络输出和快速运行策略结果是评估函数,在叶子节点进行评估(注意,为了评估快速运行,需要一直到最后一步)。监督学习策略网络输出是一个当前阶段的行动概率,充选选取分数的奖励分。该分数会随访问次数而退化,以鼓励探索。注意强化学习策略网络仅被用于辅助,来生成价值网络,并没有直接在蒙特卡洛树搜索中使用。

到这就结束了,以上就是战胜了人类的阿尔法狗算法!

AlphaGo算法框架解读

1.阿尔法狗的基本思路:

从以下两个方面减少穷举法的穷举空间,减少计算量,以更快地选出最佳走法。

(1)在每一步(州),依据一个决策P(政策),只筛选出部分移来计算。

(2)对于每一个移动,用一个测量函数(价值函数)来近似地算出相应的V值,而非穷举整个战局。

在阿尔法狗的算法中,决策P和测量函数(值函数)分别被两个深度卷积神经网络(deep convolutional neural network)替代,这是阿尔法狗贡献的核心内容。

2.神经网络的训练:

3.1决策P(政策网络):

第一步:拆解大量专业棋手的棋局过程,把每一状态和相应的每一个移动,都存为数据。整个棋盘可以视为分辨率为19×19的图像,则每个状态都是一幅图像,将可以编码为图像上的相应位置或者某个数值。

步骤2:把不同的状态作为数据,把相应的专业棋手选择的移动作为标签,输入神经网络,对网络进行训练。

步骤3:当政策网络训练成功后,称为SL政策(监督学习政策),每次输入一个州,就会输出一个概率分布。这个概率分布表示,在所有符合规则的move当中,每个move是专业棋手走法的概率。概率越大,表示某个移动越可能是专业棋手的走法。

步骤4:计算机使用SL策略模拟完整的战局,也就是,从开始到结束,对峙双方使用同一个策略来下棋(自我玩)。

步骤5:模拟大量的战局,并重复步骤1,步骤2和步骤3,得到强化训练后的神经网络,称为RL政策(强化学习政策)。

3.2测量函数V(价值网络):

步骤1:计算机使用RL Policy自己与自己下棋(自我玩),模拟大量的战局,记录相每个状态,相应的移动,以及战局结果,战局结果被编码成一个数值。

步骤2:用这些数据去训练值网络。当网训练成功后,输入一个状态,它会输出一个对战局结果的预测值。例如,在state_0时,选择了move 1,则棋局变为state_1,把state_1输入网络,就可以预测到如果选择move 1的战局结果。

4. 阿尔法狗AlphaGo下棋过程:

假设棋局来到了某个state_N,轮到阿尔法狗AlphaGo下,它会做以下操作:

步骤1:使用训练到的政策网络和价值网络自行大量模拟后面的战局(Monte Carlo Simulation)。在模拟时,执行使动作值Q最大的动作,行动价值由政策和V值的某种组合计算出来。记录state_N下每个移动被执行的次数。

第2步:选择在模拟中被执行次数最多的移动,下棋。

AlphaGo主名义

2016年11月7日,樊麾在微博上表示AlphaGo的实力大增,将在2017年初进行更多比赛.DeepMind创办人杰米斯·哈萨比斯随后证实此讯息。然而并未公布细节。

2016年12月29日晚上七点起,中国的弈城围棋网出现疑似人工智慧围棋软体的围棋高手,帐号名为「魔法」(中国大陆用户端显示为「Magist」),后又改名为「主」。2017年1月1日晚上十一点主转战至腾讯旗下的野狐围棋网的.master以其空前的实力轰动了围棋界。它以每天十盘的速度在弈城,野狐等阿尔法狗网路围棋对战平台挑战中韩日台的顶尖高手,到2017年1月4日公测结束为止60战全胜,其中弈城30战野狐30战,战胜了柯洁,朴廷桓,井山裕太,柁嘉熹,芈昱廷,时越,陈耀烨,李钦诚,古力,常昊,唐韦星,范廷钰,周睿羊,江维杰,党毅飞,周俊勋,金志锡,姜东润,朴永训,元晟溱等世界冠军棋士,连笑,檀啸,孟泰龄,黄云嵩,杨鼎新,辜梓豪,申真谞,赵汉乘,安成浚等中国或韩国国内冠军或者世界亚军棋士,以及世界女子第一人于之莹。间古力曾悬赏人民币10万元给第1位战胜万事达者。

主所进行的60战基本都是3次20秒或30秒读秒的快棋,仅在与聂卫平交战时考虑到聂老年纪大而延长为1分钟,并且赛后还以繁体中文打上「谢谢聂老师“5字。该帐号于59连胜后称「我是AlphaGo的黄博士」,表明Master就是阿尔法狗,代为落子的是阿尔法狗团队成员来自台湾的黄士杰博士; DeepMind创始人之一杰米斯·哈萨比斯于比赛结束后在其推特上表示「我们很期待在今后(2017年)与围棋组织和专家合作,在官方比赛中下几盘慢棋」,黄士杰与樊麾也分别在Facebook上与微博上发表官方中文译文,表示对各国顶尖棋士参与AlphaGo的网路公测的感谢。2017年1月5日晚,中国中央电视台“新闻联播”以「人工智慧『阿尔法狗』横扫围棋高手」为题报导了最近火爆的万事达网路快棋60连胜人类高手的事件,新闻还提到,「这次事件为接下来的人机对决做出了很好的热」。

因为人类棋士在慢棋中有更久的思考时间,所以虽然阿尔法狗(AlphaGo)在网路快棋中大获全胜,但仍不能断言其在官方慢棋比赛中是否也会有如此出色的表现。不过职业棋士们对阿尔法狗不同于人类的独特棋风以及它高超的棋力印象深刻,柯洁在其微博中表示「感谢阿尔法狗最新版给我们棋界带来的震撼」,并「略有遗憾」地称「若不是住院,我将用上那准备了一个星期的最后一招」。