AlphaGo是如何下棋的?

在分析AlphaGo是如何下棋之前,我们先来看看一下人类棋手会怎么下棋:

第1步:分析判断全局的形势

第二步:分析判断局部的棋局找到几个可能的落子点

第3步:预测接下来几步的棋局变化,判断并选择最佳的落子点。

那么,阿尔法狗AlphaGo在拥有强大的神经网络”大脑“的基础上采用蒙特卡洛树搜索来获取最佳的落子点,本质上和人类的做法是接近的。

首先是采用蒙特卡洛树搜索的基本思想,其实很简单:

多次模拟未来的棋局,然后选择在模拟中选择次数最多的走法

阿尔法狗AlphaGo具体的下棋基本思想如下(忽略掉一些技术细节比如拓展叶节点):

第1步:基于深度模仿“脑”来预测未来的下一步走法,直到L步。

第二步:结合两种方式来对未来到L的走势进行评估,一个是使用全局分析“脑”进行评估,判断赢面,一个是使用快速感知“脑”做进一步的预测直到比赛结束得到模拟的结果。综合两者对预测到未来大号步走法进行评估。

第3步:评估完,将评估结果作为当前棋局下的下一步走法的估值。即给一开始给出的下一步走法根据未来的走向进行评估。

第四步:结合下一步走法的估值和深度模仿脑进行再一次的模拟,如果出现同样的走法,则对走法的估值取平均(蒙特卡洛的思想在这里)

反复循环上面的步骤到Ñ次。然后选择选择次数最多的走法作为下一步。

说的有点复杂,简单的讲就是综合全局和具体走法的计算分析,对下一步棋进行模拟,找到最佳的下一步。对步子的选择,既要依赖于全局分析“脑”的判断,也需要深度模仿“脑”的判断。

分析到这里,大家就可以理解为什么在阿尔法狗AlphaGo与范辉的比赛中,有一些阿尔法狗AlphaGo的落子并不仅仅考虑局部的战术,也考虑了整体的战略。

知道了阿尔法狗的具体下棋方法之后,我们会明白让阿尔法狗AlphaGo棋力如此之强的还是在于AlphaGo的几个深度神经网络上。

AlphaGo的”大脑“是怎样的?

深度神经网络是阿尔法狗的”大脑‘我们先把它当做一个黑匣子,有输入端,也有输出端,中间具体怎么处理先不考虑那么阿尔法狗的’大脑“实际上分成了四大部分:

推出政策快速感知“脑”:用于快速的感知围棋的盘面,获取较优的下棋选择,类似于人观察盘面获得的第一反应,准确度不高

SL Policy Network深度模仿“脑”:通过人类6-9段高手的棋局来进行模仿学习得到的脑区。这个深度模仿“脑”能够根据盘面产生类似人类棋手的走法。

RL Policy Network自学成长“脑”:以深度模仿“脑”为基础,通过不断的与之前的“自己”训练提高下棋的水平。

Value Network全局分析“脑”:利用自学成长“脑”学习对整个盘面的赢面判断,实现从全局分析整个棋局。

所以,阿尔法狗的“大脑”实际上有四个脑区,每个脑区的功能不一样,但对比一下发现这些能力基本对于人类棋手下棋所需的不同思维,既包含局部的计算,也包含全局的分析。其中的政策网络用于具体每一步棋的优劣判断,而Value Network则对整个棋局进行形势的判断。

而且很重要的是,阿尔法狗提升棋力首先是依靠模仿,也就是基于深度模仿“脑”来进行自我水平的提升。这和人类的学习方式其实是一模一样的。一开始都是模仿别人的下法,然后慢慢的产生自己的下法。

那么这些不同的脑区的性能如何呢?

快速感知“脑”对下棋选择的判断对比人类高手的下棋选择只有24.2%的正确率

深度模仿“脑”对下棋选择的判断对比人类高手的下棋选择只有57.0%的正确率,也就是使用深度模仿“脑”,本身就有一半以上的几率选择和人类高手一样的走法。

自学成长“脑”在经过不断的自学改进之后,与深度模仿“脑”进行比赛,竟然达到80%的胜利。这本质上说明了通过自我学习,在下棋水平上取得了巨大的提升。

全局分析“脑”使用自学成长“脑”学习训练后,对全局局势的判断均方差在0.22〜0.23之间。也就是有大约80%的概率对局面的形势判断是对的。这是阿尔法狗能够达到职业棋手水准的关键所在。

从上面的分析可以看到阿尔法狗的不同“脑区”的强大。

解密Google Deepmind AlphaGo围棋算法

2016年1月28日,Google Deepmind在Nature上发布宣布其人工智能围棋系统阿尔法狗历史性的战胜人类的职业围棋选手!这条重磅新闻无疑引起了围棋界和人工智能界的广泛关注!3月份AlphaGo对阵李世石的比赛更将引起全人类的目光!

是什么使围棋算法产生了质的飞跃?要知道,在之前阿尔法狗最好的围棋程序也只能达到业余人类棋手的水平。是真的人工智能产生了吗?

对于大多数人来说,大家都知道1997年年的“深蓝”计算机战胜了人类的国际象棋冠军卡斯帕罗夫,但是大家都不会认为“深蓝”真正拥有了人工智能,道理非常简单:国际象棋(当然围棋也是)每一步都是可见的,在一个确定性的棋局下,仅有有限个走法。这有限个走法中必然有一个最优的。一个基本的想法就是对棋局进行预测,遍历每一种走法直到一方胜出,然后回退计算每一个可能赢的概率,最后使用概率最高的作为最优的走法。“深蓝”就做了这么件事,暴力穷举所有的步子,然后找最优!赢了人类,但没有智能,因为整个算法完全就是人工设计的一个算法,根本看不到智能在哪里。

显然围棋理论上也可以暴力破解,但是问题就在于围棋的可走的步子太多了,以至于目前的计算性能根本做不到暴力破解。这也就是为什么围棋是挡在人工智能阿尔法狗面前的一个重大挑战。

要使围棋程序战胜人类顶尖高手,只有依靠真正的人工智能程序阿尔法狗!对围棋有了解的朋友都知道下围棋需要对整个棋局有直观的理解,这就是围棋困难的地方。除非计算机真正理解了棋局,才有可能有大局观,才有可能下出真正的好棋!

十分钟看懂AlphaGo的核心算法

围棋是一个完全信息博弈问题。而完全信息博弈,通常能被简化为寻找最优值的树搜索问题。它含有b的d次方个可能分支,在国际象棋中b≈35,d≈80;而在围棋中b≈250,d≈150。很显然,对于围棋,用穷举法或简单的寻路阿尔法狗算法(heuristics)是行不通的。但有效的方法是存在的:

从策略(policy)P(a | s)中取样行动,降低搜索广度

通过位置评估降低搜索深度

把策略和值用蒙特卡洛树搜索(MCTS)结合起来。

阿尔法狗通常的步骤是:

用一个13层的CNN,直接从人类棋步中训练一个监督学习策略网络Pσ。输入为48 x 19 x 19的图像(比方说,它的组成棋子颜色是3 x 19 x 19),输出是使用softmax层预测的全部落子的概率。精确度是55.7%。

阿尔法狗训练一个能在运行时快速取样动作的快速策略Pπ。这会用一个基于小型模式特征的线性softmax。精确度是24.2%,但它计算一次落子只用2微秒,而不像Pσ需要3毫秒。

训练一个增强学习策略网络Pρ,阿尔法狗通过优化博弈结果来进一步提升监督策略网络。这把策略网络向赢棋优化,而不是优化预测精确度。本质上,Pρ与Pσ的结构是一样的。它们的权重使用相同值ρ=σ初始化。对弈的两个选手,是当前策略网络Pρ和随机(防止过拟合)选择的此前的策略网络迭代。

训练一个价值网络(价值网络)Vθ,来预测强化学习策略网络自己和自己下棋的赢家。该网络的架构和策略网络类似,但多出一个特征平面(当前玩家的颜色),并且输出变成了单一预测(回归,均方差损失)。根据阿尔法狗的完整棋局来预测对弈结果,很容易导致过拟合。这是由于连续落子位置之间高度相关,只有一子之差。因此,这里使用了强化学习策略网络自己与自己对弈新生成的数据。该数据从包含3000万个不同位置的独立棋局中抽取。

把策略网络,价值网络,快速策略和蒙特卡洛树搜索结合起来一个标准的蒙特卡洛树搜索过程包含四步:。阿尔法狗的选择,扩展,评估,备份为了让大家更容易理解,我们只粗略讲了讲它如何在模拟中选择状态的部分(如对数学感兴趣,请到原始论文中找公式)。

阿尔法狗状态分数=价值网络输出+快速运行(快速推出)的策略结果+监督学习策略网络输出。

高状态得分(或者说落子)会被选择。价值网络输出和快速运行策略结果是评估函数,在叶子节点进行评估(注意,为了评估快速运行,需要一直到最后一步)。监督学习策略网络输出是一个当前阶段的行动概率,充选选取分数的奖励分。该分数会随访问次数而退化,以鼓励探索。注意强化学习策略网络仅被用于辅助,来生成价值网络,并没有直接在蒙特卡洛树搜索中使用。

到这就结束了,以上就是战胜了人类的阿尔法狗算法!

AlphaGo算法框架解读

1.阿尔法狗的基本思路:

从以下两个方面减少穷举法的穷举空间,减少计算量,以更快地选出最佳走法。

(1)在每一步(州),依据一个决策P(政策),只筛选出部分移来计算。

(2)对于每一个移动,用一个测量函数(价值函数)来近似地算出相应的V值,而非穷举整个战局。

在阿尔法狗的算法中,决策P和测量函数(值函数)分别被两个深度卷积神经网络(deep convolutional neural network)替代,这是阿尔法狗贡献的核心内容。

2.神经网络的训练:

3.1决策P(政策网络):

第一步:拆解大量专业棋手的棋局过程,把每一状态和相应的每一个移动,都存为数据。整个棋盘可以视为分辨率为19×19的图像,则每个状态都是一幅图像,将可以编码为图像上的相应位置或者某个数值。

步骤2:把不同的状态作为数据,把相应的专业棋手选择的移动作为标签,输入神经网络,对网络进行训练。

步骤3:当政策网络训练成功后,称为SL政策(监督学习政策),每次输入一个州,就会输出一个概率分布。这个概率分布表示,在所有符合规则的move当中,每个move是专业棋手走法的概率。概率越大,表示某个移动越可能是专业棋手的走法。

步骤4:计算机使用SL策略模拟完整的战局,也就是,从开始到结束,对峙双方使用同一个策略来下棋(自我玩)。

步骤5:模拟大量的战局,并重复步骤1,步骤2和步骤3,得到强化训练后的神经网络,称为RL政策(强化学习政策)。

3.2测量函数V(价值网络):

步骤1:计算机使用RL Policy自己与自己下棋(自我玩),模拟大量的战局,记录相每个状态,相应的移动,以及战局结果,战局结果被编码成一个数值。

步骤2:用这些数据去训练值网络。当网训练成功后,输入一个状态,它会输出一个对战局结果的预测值。例如,在state_0时,选择了move 1,则棋局变为state_1,把state_1输入网络,就可以预测到如果选择move 1的战局结果。

4. 阿尔法狗AlphaGo下棋过程:

假设棋局来到了某个state_N,轮到阿尔法狗AlphaGo下,它会做以下操作:

步骤1:使用训练到的政策网络和价值网络自行大量模拟后面的战局(Monte Carlo Simulation)。在模拟时,执行使动作值Q最大的动作,行动价值由政策和V值的某种组合计算出来。记录state_N下每个移动被执行的次数。

第2步:选择在模拟中被执行次数最多的移动,下棋。

AlphaGo主名义

2016年11月7日,樊麾在微博上表示AlphaGo的实力大增,将在2017年初进行更多比赛.DeepMind创办人杰米斯·哈萨比斯随后证实此讯息。然而并未公布细节。

2016年12月29日晚上七点起,中国的弈城围棋网出现疑似人工智慧围棋软体的围棋高手,帐号名为「魔法」(中国大陆用户端显示为「Magist」),后又改名为「主」。2017年1月1日晚上十一点主转战至腾讯旗下的野狐围棋网的.master以其空前的实力轰动了围棋界。它以每天十盘的速度在弈城,野狐等阿尔法狗网路围棋对战平台挑战中韩日台的顶尖高手,到2017年1月4日公测结束为止60战全胜,其中弈城30战野狐30战,战胜了柯洁,朴廷桓,井山裕太,柁嘉熹,芈昱廷,时越,陈耀烨,李钦诚,古力,常昊,唐韦星,范廷钰,周睿羊,江维杰,党毅飞,周俊勋,金志锡,姜东润,朴永训,元晟溱等世界冠军棋士,连笑,檀啸,孟泰龄,黄云嵩,杨鼎新,辜梓豪,申真谞,赵汉乘,安成浚等中国或韩国国内冠军或者世界亚军棋士,以及世界女子第一人于之莹。间古力曾悬赏人民币10万元给第1位战胜万事达者。

主所进行的60战基本都是3次20秒或30秒读秒的快棋,仅在与聂卫平交战时考虑到聂老年纪大而延长为1分钟,并且赛后还以繁体中文打上「谢谢聂老师“5字。该帐号于59连胜后称「我是AlphaGo的黄博士」,表明Master就是阿尔法狗,代为落子的是阿尔法狗团队成员来自台湾的黄士杰博士; DeepMind创始人之一杰米斯·哈萨比斯于比赛结束后在其推特上表示「我们很期待在今后(2017年)与围棋组织和专家合作,在官方比赛中下几盘慢棋」,黄士杰与樊麾也分别在Facebook上与微博上发表官方中文译文,表示对各国顶尖棋士参与AlphaGo的网路公测的感谢。2017年1月5日晚,中国中央电视台“新闻联播”以「人工智慧『阿尔法狗』横扫围棋高手」为题报导了最近火爆的万事达网路快棋60连胜人类高手的事件,新闻还提到,「这次事件为接下来的人机对决做出了很好的热」。

因为人类棋士在慢棋中有更久的思考时间,所以虽然阿尔法狗(AlphaGo)在网路快棋中大获全胜,但仍不能断言其在官方慢棋比赛中是否也会有如此出色的表现。不过职业棋士们对阿尔法狗不同于人类的独特棋风以及它高超的棋力印象深刻,柯洁在其微博中表示「感谢阿尔法狗最新版给我们棋界带来的震撼」,并「略有遗憾」地称「若不是住院,我将用上那准备了一个星期的最后一招」。

阿尔法狗历史背景

阿尔法狗(AlphaGo)的研究计划于2014年启动,此后和之前的围棋程式相比表现出显著提升。在和Crazy Stone和Zen等其他围棋程式的500局比赛中,单机版AlphaGo(执行于一台电脑上)仅输一局[16]。而在其后的对局中,分散式版AlphaGo(以分散式运算执行于多台电脑上)在500局比赛中全部获胜,且对抗运行在单机上的AlphaGo约有77%的胜率。2015年10月的分散式运算版本AlphaGo使用了1202块CPU及176块GPU。

2015年10月,AlphaGo击败樊麾,成为第一个无需让子即可在19路棋盘上击败围棋职业棋士的电脑围棋程式,写下了历史,并于2016年1月发表在知名期刊“自然“
2016年3月,透过自我对弈数以万计盘进行练习强化,AlphaGo在一场五番棋比赛中4:1击败顶尖职业棋士李世乭,成为第一个不借助让子而击败围棋职业九段棋士的电脑围棋程式,立下了里程碑。五局赛后韩国棋院授予阿尔法狗AlphaGo有史以来第一位名誉职业九段。

2016年7月18日,因为柯洁那段时间状态不佳,其在Go Ratings网站上的Elo等级分下滑,阿尔法狗AlphaGo得以在Go Ratings网站的排名中位列世界第一,但几天之后,柯洁便又反超了AlphaGo [19]。2017年2月初,Go Ratings网站删除了AlphaGo,DeepZenGo等围棋人工智慧在该网站上的所有资讯。

2016年12月29日至2017年1月4日,再度强化的阿尔法狗以「万事达」为帐号名称,在未公开其真实身分的情况下,借非正式的网路快棋对战进行测试,挑战中韩日台的一流高手,测试结束时60战全胜[20]。

2017年5月23至27日在乌镇围棋峰会上,最新的强化版AlphaGo和世界第一棋士柯洁比试,并配合八段棋士协同作战与对决五位顶尖九段棋士等五场比赛,取得3比零全胜的战绩,团队战与组队战也全胜,此次阿尔法狗利用GoogleTPU执行,加上快速进化的机器学习法,运算资源消耗仅李世乭版本的十分之一。在与柯洁的比赛结束后,中国围棋协会授予阿尔法狗AlphaGo职业围棋九段的称号。

AlphaGo在没有人类对手后,阿尔法狗AlphaGo之父杰米斯·哈萨比斯宣布AlphaGo退役。而从业余棋士的水平到世界第一,阿尔法狗AlphaGo的棋力取得这样的进步,仅仅花了二年左右。最终版本Alpha Zero可自我学习21天达到胜过中国人棋神柯洁的Alpha Go Master的水平。

年仅 25 岁!这个打败 AlphaGo 的男人,是怎么利用AI?

Schrittwieser 从 2013 年 9 月进入 Google 内部的 DeepMind 部门开始工作。 DeepMind 是一个专门研究人工智慧 AI 的公司,而他会被富比世杂志标上潜力无限的贴纸,​​就与那蓬勃发展的人工智慧有关。 Schrittwieser 就是设计出打败阿尔法狗人工智慧的首席工程师。并且之后也是后来研发的 AlphaZero 的主推手。

而且这边必须强调一下,他只有 25 岁! 25 岁配上打败 AlphaGo 这个名号,够响亮了吧!

但如果要知道他的丰功伟业,我们就需要回到,很久很久以前……

回忆过去:一亿人看 AlphaGo 对李世石下围棋
过了三年,大家还记得 AlphaGo 吗?

2016 年 3 月,AlphaGo 这一台 AI 思维的机器挑战世界围棋冠军李世石(Lee Sedol)。比赛结果以 4 比 1 的分数,AlphaGo 压倒性的击倒人类世界最会下围棋的男人。

这幅画面深深刻画在人类的脑海里头,因为在这一个时刻,机器的演算法正式胜过人脑思维。就连在围棋,这种比西洋棋还拥有更多下法的对弈都无法抵挡 AI 的运算能力。人定胜天不一定,但机器可能胜人了。

AlphaGo Zero 以 100 比 0 打败 AlphaGo
然而,Schrittwieser 与他的同僚在 2017 年证明了青出于蓝更胜于蓝的道理。 2017 年 10 月,新世代易主,AlphaGo 腰上的冠军腰带被扯下,换到了他弟弟 AlphaGo Zero 身上。

AlphaGo Zero 是制作 AlphaGo 的团队 DeepMind 的第二成品。 AlphaGo 的训练方式是所有人纵所皆知的,AlphaGo 会与许多玩家对弈,并从人类身上学习怎么下围棋会是最有效、最具效果的。 AlphaGo Zero 可就不一样了。 AlphaGo Zero 不是藉由人类进步,反而是 AlphaGo Zero 自身。

AlphaGo Zero 会不断的与自己下棋,由此精进自我。最终 AlphaGo Zero 用 100 比 0 的战绩大手一挥,AlphaGo 默然出场。

AlphaGo Zero 是科学界的一个里程碑。这代表人工智慧无需使用人类的智慧成长,反而就像黄金葛一样,把他扔在水里不用理就可以活得好好的。

以人工智慧导向创作的世界不远了
Schrittwieser 是 DeepMind 团队研究 AlphaGo 的工程师之一。 Schrittwieser 也是第三个 AlphaGo,Alpha­Zero 的大力推手。这次追求的目标是扩展 Alpha­Zero 使用的广度。 Alpha­Zero 目前已学会围棋、西洋棋,甚至是日本的将棋。

Schrittwieser 提到人工智慧如果可以自我学习,而不受人类影响。这样的话,人工智慧在做社会上的决策时,就不会做出有偏见的决定,也不会像人类受到情绪影响。 Schrittwieser 更可以确定的是,人工智慧如照这个方式进步下去,我们将迎来一个以AI 为导向的世代,创新动能也会因AI 而改变,从医药学到材料科学,每个学科都将不再一样。

AlphaGo为何金盆洗手?

没有人会否认,过去一年来炒热全球AI的热源头,正是阿尔法狗。很少人知道,AlphaGo里头九成的软体都是一个台湾工程师黄士杰负责。 11月10日,衣锦还乡的黄士杰,首度在中研院人工智慧年会,说清楚AlphaGo的过去与未来。

「这五年,我也没有想过会做出AlphaGo,团队的精神很强,有个远大的目标,」 AlphaGo首席工程师黄士杰语说。

十一月十日,中研院人文馆「人工智慧年会」大会议室已经挤满人。这天是全球人工智慧AI象征「AlphaGo」幕后重要操盘手,黄士杰衣锦返乡的日子。他是DeepMind里头,除了两位创办人之外,唯一可对外代表公司发言的主管。这也是2012年加入DeepMind的黄士杰,第一次公开演讲。

回想起两个月前的最新突破,身为DeepMind第四十号员工的黄士杰,忍不住兴奋与激动。该公司投稿「自然」杂志上的论文,揭露AlphaGO的终极版「AlphaGo Zero」,不再靠人类围棋知识,就是让Zero只了解围棋最基本的规则,自己跟自己左右互奕,从彻底乱下开始,短短四十天,对上曾打败世界棋王柯洁的旧版Master,已经有超过九成的胜率,打败围棋软体累积十年的历程。

刚开始时,黄士杰认为Zero绝对赢不了Mater。因为他再怎么想,都想不到如何让一个程式从零开始学,可以一夕之间赢得了花了十年研发的围棋软体?

但Zero进步神速,「三天就走过围棋几千年的历史,」让黄士杰大为吃惊。但更令人吃惊的在后头,Zero训练到21天时,就达到Master的水准,到第40天,就超越了Master。

身为业余六段棋士,把自己十几年在围棋上的研究拿掉,黄士杰自己有什么感觉?

「如果我阻碍了它,我应该被拿掉,AlphaGo知识中有99%是我做的,那是从师大的研究到现在,这是一个很好的收尾,」黄士杰坦言自己心情很复杂。

DeepMind创办人迪米斯已经和黄士杰说,AlphaGo完成任务了,「我们要往前看」。

黄士杰还记得2016年底西方同事们都准备要过年了。他刚回到台湾,迪米斯立刻要他低调地去申请网路帐号,开始上网下棋,匿名挑战全世界高手。这是AlphaGo Master诞生之始。

在演讲现场黄士杰秀出当时的照片,他当时就在自己的房间,桌上放一碗面,不断下棋,一天要下十盘。注意力要很集中,十分疲累。

刚开始因为黄士杰用的是新帐号,没有职业棋士愿意和这个无名小卒下棋,但没想到他一出手就所向披靡,第二天开始,变成许多人登门挑战。

「当时压力很大,很怕点错,或者网路断线,AlphaGo不能因为我输掉阿,」黄士杰说。当时Master每一盘都赢,下了六十盘,胜率高达95%,高到黄士杰和团队一度以为是bug。

用这个新版软体,今年5月和世界棋王柯洁九段在中国乌镇对奕。 Master毫无意外的完胜。

「但这是一次人机共同探索,AI是人类的工具不是威胁,」黄士杰也强调,这套深期度学习加上强化学习的价值网络,就是AlphaGo Zero的理论。

这段AlphaGo旅程,对一名台湾土生土长,站上世界科学舞台的工程师而言,简直像「爱丽丝梦游仙境」。

然而,业界的人都等着看,围棋界已无抗手的AlphaGo,接下来能否在其他产业大展身手?

AlphaGo母公司DeepMind创办人兼执行长德米斯也宣布,AlphaGo「功成身退」,不再比赛。

部份业者甚至持保留意见。例如,一位微软研发主管接受《天下》采访时,便酸溜溜的说,「微软做AI是拿来用的,谷歌做AlphaGo是拿来吹牛的。」他认为,当年IBM的超级电脑深蓝,打败西洋棋棋王后,因为找不到应用,团队最终解散。负责人许峰雄最后甚至离开了IBM。

而脸书人工智慧实验室负责人、纽约大学终生教授Yann Lecun也曾质疑,Alphago可能很难应用到自驾车等热门领域。

「我们尊重他的看法,我们没有说它(AlphaGo)可以马上用到其他领域,但它可以逐渐用到其他领域,」一位听众转述Yann Lecun的质疑时,年轻的黄士杰回答得很小心翼翼。

「AlphaGo Zero主要目标就是证明不需要人类知识,也可以学习的很强。」黄士杰接下来自信的说,「我们要跟大家说,那是有可能的。」

AlphaGo Zero拿掉之前累积的人类智慧,让AlphaGo了解围棋最基本的规则。单靠机器的深度学习和强化学习。一切从零开始。

可说就是人类创造的智慧打败人类智慧与人类直觉。

「最差的状况也就不过就是IBM当年的状况,但我不认为AlphaGo会到最坏的状况,」清大电机系助理教授孙民说。

从应用的角度来看,孙民认为,只要在虚拟世界中可以虚拟的状况,AlphaGo zero都可以做。譬如建筑设计可以虚拟设计就可以在虚拟环境中测试,硬体测试可以用这样的工具设计出好的晶片。

这和过去的虚拟三D设计有何不同? 「不同就在以前都是人去测试,虚拟软体告诉你虚拟后的结果,但改model还是人,硬体设计还是人,」孙民分析, 「AlphaGo zero 不需要人,只要告诉我规则和你要的结果, 不需要一个专家或者建筑师力学高手, chip设计师, 就可以做出来,」他说。

当然这都还是在虚拟世界中的功能,孙民认为如果在一个环境会变异的实体世界,AlphaGo就还有很多问题需要课服。但可以期待未来的应用与发展。

「我每天上班,每天都在进步,非常愉快,我们团队的精神很强,有个远大的目标,」在DeepMind人称「Aja,阿杰」的黄士杰说。

迪米斯创立Deepmind时,想要做的是通用、强人工智慧。 AlphaGo还只是一个弱人工智慧,还没有到达什么都能学的境界。

或许现在也才迈入人工智慧启蒙期的结束,AlphaGo的退役,是另一个新的开始。

红面棋王周俊勋+AI团队 对战AlphaGo谁赢?

「IEEE计算智慧学会(CIS)人机共学」夏令营今天在高雄师范大学举行,主办单位特别邀请世界「红面棋王」周俊勋,示范人机共学创新模式,分享台湾团队与日本及美国的最新国际合作研究成果。周俊勋在「ELF OpenGo」协助及建议下与阿尔法狗2.0对奕,但碍于时间,只下到94手就进入解说。

高雄师范大学资讯教育中心与台南大学执行科技部数位经济前瞻技术计划团队,首度在台湾共同办理「IEEE计算智慧学会(CIS)人机共学」暑期夏令营。高师大科技学院院长郑伯壎、台南大学教授李健兴与波兰华沙科技大学敎授Jacek,日前参访科技部成大AI研究中心,并拜访台南市政府教育局,讨论台湾与波兰未来在人工智慧技术与教育学习国际合作方向与整合应用,期望能够藉由AI技术来协助小朋友认识人工智慧的未来教育学习应用,并共同规划邀请台南市及高雄市两教育局合作,导入高中职AI教育。

周伯勋表示,当年AlphaGo与顶级棋士对弈,连世界棋王也落败,许多人觉得不可思议。对棋士而言,AI不是可挑战的对手,因为AI的资源太快、太强大了。假设围棋的难度是100分,棋士只学习10分,这7、8分到10分的距离可能就花了10年的时间,但以后要前进到15、20分,也许透过AI的辅助学习,会迅速达到目标。现在棋士与AI间已成为合作辅助关系,不少中日台韩顶尖棋士都以AI作为围棋训练的辅助工具。

高师大校长吴连赏指出,随着AlphaGo的成功,学生和专业人士对于机器学习应用于游戏领域特别感兴趣。尽管电脑程式已经比人类玩家厉害,机器学习领域仍然提供了十分有趣的前景。 「计算智慧之人机共学」夏令营目标,就是招募热爱计算型智慧(CI)领域、并强烈满足求知欲的学生,一起来探讨学习,希望学员都能满载而归。