ALphaGo Zero王者诞生,平地一声雷惊醒无数人

  • 距离上次人工智能对弈围棋赛手快一年了吧,大家似乎并没有减少对人工智能的热爱,相反更加钟爱。特别那场阿尔法狗大战李世石,现在还会拿出来讨论一番。甚至也有人对阿尔法狗的推出表示遗憾,称再也看不到那样的精彩比赛了,毕竟它宣布退出且对外宣布阿尔法狗不止在围棋界发挥,还有更大的用途。
  • 没想到几月以后等大家淡忘此事后却宣布  AlphaGo Zero 最强版本诞生,让人措手不及。上周 DeepMind AlphaGo 人工智能围棋团队的一篇新论文,题目是“Mastering the Game of Go without Human Knowledge”。这篇论文不仅被顶级学术期刊 Nature 发表,而且立刻被媒体反复报导,引起社会热议。
  • 这篇论文让人关注的点有四点:
  • 第一、只告诉机器围棋规则,但是不告诉它定式等等人类总结的围棋战术,也不让它读人类棋手比赛的棋谱,让机器完全自学成才。
  • 第二、机器完全靠自己摸索,自主总结出了定式等等围棋战术,而且还发现了人类上千年来没有发现的定式。从零开始,机器自学了不到 40 天,就超越了前一版 AlphaGo(AlphaGo Master),而 AlphaGo Master 几个月前,曾以 60 : 0 的战绩,战胜了当今几乎所有人类围棋高手。
  • ALphaGo算法
    ALphaGo算法
  • 第三、 AlphaGo Zero 的算法,比 AlphaGo Master 简练很多。那么什么是AlphaGo Zero 的算法呢?它其实很简单并不复杂。理解清楚 Monte Carlo Tree Search、深度学习启发函数和置信上限,这三个概念就行了。
  • 平时改好围棋的朋友都知道,围棋棋面总共有 19 * 19 = 361 个落子位置。假如电脑有足够的计算能力,理论上来说,我们可以穷举黑白双方所有可能的落子位置,找到最优落子策略。但是,如果穷举黑白双方所有可能的落子位置,各种组合的总数,大约是 250^150 数量级。这个数太大了,以至于用当今世界最强大云计算系统,算几十年也算不完。有没有不穷举所有组合,就能找到最优或者次优落子策略的算法呢?有,Monte Carlo Tree Search 就是这样一种算法。
  • 这次 AlphaGo Zero强者诞生,是否对棋手们造成很大的危险,具体情况还不知。如果真的要再次宣战的话,围棋赛手们应该也会用于挑战的吧,毕竟能够跟阿尔法狗对弈,那绝对是技术了得呀!

围棋胜利的意义究竟在哪里?还不如像阿尔法狗学习呢

  • 人总是有好胜心,包括像是下围棋,有的时候会想一个问题,围棋的胜利能代表什么?这只是一个比赛结果吗还是说能在比赛中学习到什么,其实和阿尔法狗的比赛中我们能学习到很多东西,并不是说输给阿尔法狗觉得丢人然后就结束了,柯洁说过阿尔法狗是“围棋上帝”派来指引我们的。
  • “围棋有很多不确定的因素,机器的局限性是很多的,在下棋过程中也会出现漏洞,因此之前观看阿尔法狗跟樊麾的比赛,让我以为计算机达不到围棋选手的最高水平。结果大家都知道,我输了。”惨败让李世石改变了他对阿尔法狗的看法。在输给阿尔法狗后,柯洁豪取22场连胜,拿下全运会围棋比赛冠军。但再次升级的阿法尔狗,已经不需要柯洁的棋谱了。
  • 根据《自然》杂志的最新介绍,Alpha Zero的设计理念和系统配置和Lee/Master完全不同。此前,Lee/Master都是用上千盘人类业余和专业棋手的棋谱进行训练,而升级后的阿尔法狗不依托于人类的先验成果,不靠“吃棋谱”进步,完全靠自我对弈学习下棋。
  • 阿尔法元之所以能当自己的老师,是用了一种叫强化学习的新模式。系统从一个对围棋一无所知的神经网络开始,将该神经网络和一个强力搜索算法结合,自我对弈。在对弈过程中,神经网络不断调整、升级,预测每一步落子和最终的胜率。
  • 阿尔法狗的图片
  • 仅仅经过3天的训练,这套系统已经可以击败AlphaGoLee,也就是去年击败韩国顶尖棋手李世石的那套系统,而且比分高达100比0。40天训练后,AlphaGo Zero总计运行了大约2900万次自我对弈,使得AlphaGoZero得以击败AlphaGoMaster,比分为89比11。
  • 在系统配置方面,AlphaGoZero也比前几代系统更加节能,AlphaGoLee需要使用几台机器和48个谷歌TPU机器学习加速芯片,AlphaGoZero只需要使用一台配有4个TPU的机器即可。阿尔法狗赢了李世石后,哈萨比斯说,“阿尔法狗从来都不是我们的唯一,甚至不是我们最重要的研发,我们希望将此应用于更大的真实世界的问题。”升级过后融入了Deep Mind最新技术的新阿尔法狗,目标已经不再只是打败人类棋手,而是将目光转向了实际应用方面。
  • 正如柯洁所说的阿尔法狗是“围棋上帝”派来指引我们的,所以很多时候我们需要转变一个想法去考虑就是人类与阿尔法狗围棋比赛的初始点和结果它们所能给我们带来的影响,人类应该一直“跑着”去不断的追寻一些真理才是。

阿尔法狗与李世石的比赛?究竟意义在哪?

    • 可能关于阿尔法狗很多人都会有首先都会有一个疑问一直没有解决那就是阿尔法狗对战李世石的意义究竟在哪里?阿尔法狗的胜利又代表了什么? 其实的话通过这一“战役”让两者都火了一把让大众都更加的关注了,今天我就通过这篇文章大家简述一下。
    • 即使我们已经进入电脑时代,至今为止电脑也只能按照编好的程序进行机械式操作,虽然在计算强度和精密性上远远超过人类,但人类通过自己编的程序都能预料得到机器人在做些什么。但目前基于神经网络和深度学习算法的阿尔法狗的落子,这些都是编程者预测不到的。
    • 并且围棋作为完全信息策略性游戏的圣杯,我们不能不承认其参与者阿尔法狗形成了自己的下棋“策略”,而且这个策略在几个月的学习中,已经优化到了超过人类两千年积累的地步,有些步数人类甚至已经无法理解了,对很多职业围棋高手都产生了巨大的冲击,甚至有些人说以后应该向阿尔法狗学习新的围棋策略,以前的无数所谓定式,现在看来很多都是不成熟、未经过充分探讨的下法而已,而冥冥中还有无数种更优的定式,是人类所不知晓,阿尔法狗已经发现或即将发现的。
阿尔法狗
                       阿尔法狗
  • 人类以后当然还会下围棋,玩职业比赛,就像国际象棋被深蓝破解以后还有很多人玩一样。但是再也不会出现一个吴清源,被大家公认是创造了围棋新思维、新策略的一代宗师。因为这些所谓新思维新策略早已经存在于阿尔法狗的数据库里了,而且阿尔法狗还有更优的下法。
  • 以上主要在讲围棋。但推而广之,以未来跨领域的阿尔法狗的眼光,人类军事史上的名将可能都很可笑,比如孙武、韩信、霍去病,直至朱可夫、古德里安等,若是给一支相仿的部队,阿尔法狗应该也是能赢得。当然战争是不完全信息策略,比围棋难得多,但是同样都是策略性游戏,而且人工智能的算法迟早有一天要踏足不完全信息策略领域。
  • 但是从以上种种的结果来看,阿尔法狗战胜围棋大师李世石还是有一定意义的,虽然谈不上有多大轰动但还是有取得一定的里程碑的意义的,这也为未来的人工智能的发展打下了一定的基础,并且大众的接受度也会变得高很多。

 

阿尔法狗所向披靡?答案是:不,你错了

  • 其实的话关于之前2016年阿尔法狗大热的那一个时期,阿尔法狗与世界棋手李世石两者的围棋对弈让不少群众吃惊了一把,那么阿尔法狗是否就是真的所向披靡呢?这里的话给大家介绍国外关于阿尔法狗围棋对弈的人工智能解读,一起来看吧。
  • 错误一:阿尔法狗它并没有真正的棋感,实际上也不懂得思考并作出策略,围棋解说把阿尔法狗当人来看待是错误的。阿尔法狗只是不停问自己,我下这一步我胜率提高了多少。
  • 错误二:阿尔法狗可以说是里程碑式地开创了历史,但是它并没有作出任何非常创新的技术,而deep mind只是将早已经存在的一些人工智能技术尤其是机器辨认图片技术运用到下棋上,之前没有人想过能这样做,这种尝试是一种创新。
  • 阿尔法狗大战李世石
    阿尔法狗大战李世石
  • 错误三:阿尔法狗并没有强大的学习能力,达到现在棋力是基于接近1亿次棋局的模仿和推测出来的,一开始阿尔法狗只学习了16万棋局时它的棋力很弱。他不但比人学习效率差而且比马戏团的动物学习效率更差。所以说,跟李世石对局每一局都在进步是不可能的,一局的经验对阿尔法狗基本没什么影响。
  • 错误四:之前看到文章说阿尔法狗速度没深蓝快,其实阿尔法狗是深蓝的5万倍,今天用的iPhone6s计算能力都是深蓝的几十倍。
  • 错误五:阿尔法狗其实也是基于蛮力穷举的下法,只不过运用新的机器学习方法。穷举法和机器学习不矛盾。
  • 错误六:说人脑计算速度慢是错误的,和计算机的计算速度相对应的,应该是人脑神经元计算速度,保守估计人脑计算速度是每秒1000万亿次,计算能力是深蓝的10万倍。
  • 错误七:阿尔法狗并不是完全学习的,首先底层需要人编程围棋规则,其次基础的下棋原则也是人为输入的。
  • 所以简单总结一下的话,其实包括阿尔法狗围棋程序和深蓝的象棋都是蛮力搜索法,也就是:其一,考虑所有未来可能变化;其二,计算走法未来多少步的胜率;其三,选择走法。但是围棋每走一步比国际象棋变化更大,步数更多,可能变化种类超过宇宙原子总和。
  • 看完这篇文章后我相信大家对于阿尔法狗的看法想对来说应该会比较理性一点,我们可以保持着积极的态度去看,比如关于人工智能未来的发展趋势以及阿尔法狗它所带来的正确的意义与影响,这些都是能够引起人们的反思的。

 

阿尔法狗的“围棋生涯”以及它所取得的成就

大家说到阿尔法狗大家肯定都知道,并且之前关于大热的阿尔法狗以及和李世石两者间的比赛可谓是引起了轰动啊,那么大家有了解关于阿尔法狗挑战的理由以及意义吗?我想关于这个问题大家可以深思考虑一下,那么今天我为大家介绍关于阿尔法狗它的“围棋生涯”。

2016年1月份,《自然》杂志发表了DeepMind关于阿尔法狗的第一篇论文,重点阐述了如何通过神经网络和蒙特卡洛树搜索让计算机程序掌握下围棋的方法。这篇文章引起的波澜不小,但更多人愿意讨论的是,当时DeepMind宣布,将在3月份,阿尔法狗会挑战围棋职业九段、韩国棋手李世石。

阿尔法狗vs柯洁
阿尔法狗vs柯洁

确实,关于这场比赛,包括中国围棋界在内,很多人对李世石抱有更多的信心。即便在李世石输掉前2局比赛后,当今世界围棋第一人柯洁仍对人类信心十足,他在自己的微博上写到:“就算阿尔法狗战胜了李世石,但它赢不了我”。最终的比分定格在4:1,如果不是第四盘,李世石下出 “神来一手”,抓住阿尔法狗的漏洞,比分可能会更悬殊。
挑落职业棋手,阿尔法狗引来了全球的关注。DeepMind称,全球有2000万观众通过电视直播观看了它与李世石的比赛。直播后,关于人工智能、神经网络、深度学习的讨论热闹非凡,人工智能浪潮也由此展开。正是因为输掉了李世石一盘棋,阿尔法狗获得了韩国棋院颁发的“职业九段”证书,世界排名上甚至一度超越柯洁排在第一位。
如果说赢下李世石让世人震惊外,那么AlphaGo接下去的进步和发展,只能用震撼来形容。2017年1月份,阿尔法狗换上“Master”的马甲,潜伏野狐围棋平台,直接以60:0的战绩横扫了中日韩顶尖的棋手。在不到1年的时间里,阿尔法狗正如它的新名称一样,真正成为了围棋大师,也开始朝着“围棋之神”的方向前进。柯洁对阿尔法狗的态度也有了180度的转变。“我们两年前总以为AI计算力强,现在发现是大局观、宏伟蓝图更强,压制我们,远远领先我们人类,令我非常震撼。”他在微博上说到。

而阿尔法狗作为人工智能的产物确实是取得了一定的胜利以及比赛胜利胡它所带来的轰动后的意义,毕竟连世界棋手都认同了阿尔法狗的实力,所以作为成功的人工智能产物,我相信大家对于未来的人工智能产物肯定也会有一定的期待的,而不是保持着质疑的态度。

谷歌的“超人”alphago zero声称象棋冠军

谷歌表示,其alphago zero的人工智能程序已经赢得了国际象棋与世界领先的专业软件在教学本身从无到有的游戏时间。公司DeepMind师说它对鱼干8 100场比赛,并赢得了所有的人。这项研究尚待同行评审。但专家们已经表示,这一成就将增强该公司在竞争领域的地位。

然而,发表在arXiv网站康奈尔大学的状态,被国际象棋的规则和被告玩模拟对自己学习后一种算法称为alphazero能够超越鱼干仅仅四小时的细节。在接下来的100场比赛中,每个项目每分钟都有一分钟的思考时间。alphazero赢得了25场比赛,打出了与白件,给它的第一步,还有三人在这起黑块。这两个项目吸引了剩下的72场比赛。DeepMind描述的性能水平达到“超人”。

alphago zero的最新成果不休息的棋而已。文章说,这是日本棋将棋与领先的人工智能程序命名的Elmo还得意洋洋,经过两个小时的自我训练。算法的alphazero赢了90场,输了八了。此外,经过八个小时的自我训练,在40场比赛中也击败了以前的版本,输掉了60场比赛。Wooldridge教授指出,所有三场比赛都相当“封闭”在某种意义上他们有限的规则集来抗衡。

AlphaGo
AlphaGo

巴斯大学的人工智能专家Joanna Bryson教授补充说,人们应该谨慎地购买公司的大肆宣传。但她补充说,它善于宣传的诀窍使它在对抗挑战者时处于有利地位。她说:“这不仅仅是为了雇佣最好的程序员。”。“这也是非常政治的,因为alphago zero有助于使谷歌在与政府和监管机构就人工智能领域进行谈判时尽可能强大。”

谷歌alphago在苏黎世新基地的“常识”

苏黎世将成为谷歌在美国以外最大的alphago研究中心。谷歌正致力于推动一个新的欧洲研究中心,致力于推动这一技术的发展。总部设在苏黎世,该小组将集中在三个领域-机器学习,自然语言理解和计算机感知。

Emmanuel Mogenet,谁领导的单位,说大部分的研究将对教学机常识。他说:“我对球队的成长没有任何限制”。“我们在增长方面雄心勃勃。唯一的限制因素将是人才,”他告诉记者聚集在苏黎世听到更多关于谷歌的alphago AI计划。机器学习已经是“秘方”在很多谷歌的产品,Mogenet先生说,包括搜索、垃圾邮件过滤、翻译和内容的去除,以及较新的产品如虚拟助手谷歌助手,消息应用程序分配和自动驾驶汽车。

AlphaGo
AlphaGo

另一个重点将是改善人与机器对话。“谷歌一直从事自然语言的工作,因为这是人们搜索的方式,但我们从来没有真正理解这个问题。我们只是匹配内容和排名的内容巧妙地,“他说。“下一步是真正了解人们在问什么。”最后,研究人员会在帽子下面钻研,试图理解“机器是如何学习的,为什么深度学习如此有效”,他说:“alphago和世界冠军棋手之间的比赛动作,被誉为开创性的时刻,谷歌的高调的AI团队DeepMind,总部在伦敦,有更大的抱负”解决情报”。

它最近引起争议,当它被告知,它已经获得了数以百万计的患者的医疗保健数据,作为与NHS建立一个肾脏疾病预警系统的合作伙伴关系的一部分。DeepMind研究科学家Thore Graepel在苏黎世事件上的其他高知名度的项目之间的人类和人工智能的一个里程碑战役给一个更新,其计算机程序alphago把世界上最好的棋手,赢了五场比赛的四。

Graepel博士说,去世界各地的玩家现在热衷于玩alphago”。他说:“人们非常渴望能以某种形式提供它。”。但首先,研究人员有一个难得的机会“调试人工智能系统”。“alphago输掉一场比赛,我们作为研究人员要探索和发现什么是错的。我们需要弄清楚它的弱点,并试图改进它。”

 

 

谷歌DeepMind:AlphaGo变得更加陌生。

围棋比棋赛有更多的可能动作。谷歌的DeepMind表示,它已经在人工智能领域取得了另一个重大进展,那就是让一台机器在没有人类玩家帮助的情况下掌握围棋。AlphaGo程序由科技巨头的人工智能部门设计,已经击败了世界上最优秀的两名选手。

它是从数千个人类玩的游戏开始的。但是,新的AlphaGo Zero开始时是一个空白的围棋棋盘,除了规则之外没有任何数据,然后自己玩。在72小时内,它就足够好了,可以把原来的程序打到100场。DeepMind的首席执行官戴米斯?哈萨比斯(Demis Hassabis)表示,该系统现在可以在科学研究中获得更广泛的应用。

AlphaGo
AlphaGo

图片说明Demis Hassabis工作于视频游戏,然后共同创立了Deep Mind。他告诉BBC和其他记者说:“我们非常兴奋,因为我们认为现在已经足够好了,可以在一些真正的问题上取得一些真正的进展,尽管我们显然离完全人工智能还有很长的路要走。”

AlphaGo在今年5月击败了世界排名第一的围棋选手柯洁(Ke Jie)。正如在这个领域的许多进展一样,这些成就需要大量数据的结合——在这个案例中记录了成千上万的游戏——以及大量的计算机处理能力。大卫·西尔弗也开始了他的电子游戏生涯。

负责这项工作的大卫·西尔弗说,该团队采用了一种完全不同的方法,即AlphaGo Zero。他解释说:“新版本从一个对围棋游戏一无所知的神经网络开始。”“唯一的知识就是游戏规则。”除此之外,它还通过与自己的比赛来计算一切。

阿尔法狗都进行变身啦!AlphaGo +Zero“重磅来袭”

今天一打开朋友圈,我的朋友圈又被阿尔法狗给刷屏啦,这个原因正是因为出现了一个全新的zero,用四十天时间超越了人类三千年的积累。这是不是说明阿尔法狗一直以来都在进行不断升级呢。

《MIT科技评论》说:AlphaGo Zero 表明,人工智能可以在没有任何帮助的情况下变成超人。我的朋友安猪说了简短的一句话:神来了!人工智能在计算、存储、学习能力方面,都会全面超越人类,但现在人工智能的局限至少还有两个:第一,人工智能目前只能解决特定的问题,比如,会下围棋的不会开车,会开车的不会写诗;第二,人工智能不知道,什么是人类眼中的“美”和丑”。

AlphaGo
阿尔法狗

NNAISENSE公司与世界最大的钢铁制造商安赛乐米塔尔(Arcelor Mittal)合作,采用深度学习算法提高了钢材缺陷的检测效果。通过阿尔法狗神经网络学习的方式分析相机拍摄的钢产品的照片,比传统的方法更准确和高效的评估钢材质量。阿尔法狗这种模式识别的能力还可以应用到上千个产业中。

现在AlphaGo Zero也是越来约红都变“小红人”了,大家对于人工智能之后的发展或者是阿尔法狗之后的发展之路更为关注,目前更新出来的弟弟篇AlphaGo Zero让大家都还是处于震惊阶段,不知道大家的朋友圈还好吗?

AlphaGo Zero完胜“阿尔法狗”,我们从中可以得到哪些信息

AlphaGo Zero的问世可能没有AlphaGo打败李世石那样的引人注目,但是从AlphaGo Zero完胜AlphaGo的消息中,我们不难看到,在算法和计算能力不断提升的今天,AlphaGo Zero无监督学习成功了,这使得AlphaGo Zero摆脱对人工标注样本依赖成为了可能,对人工智能的发展有着重大意义。

算法的突破极大降低了训练难度与训练时间。之前战胜李世石的AlphaGo算法基本采用了传统增强学习技术再加上深度神经网络DNN完成搭建,而AlphaGo Zero采用类似DQN的一个DNN网络实现决策过程,可以同时输出该步的走子策略(policy)和当前情形下的胜率值(value),能够节省训练时间并且能适应更多种不同情况。

AlphaGo
阿尔法狗

网络结构的改进实现了算力的提升。AlphaGoZero特征提取层采用了20或40个残差模块,与之前AlphaGo采用的12层左右的卷积层相比,AlphaGoZero的训练效率有了明显的提升,仅通过4块TPU和72小时的训练就能够胜过之前48块TPU和训练用时几个月的的原版AlphaGo。

AlphaGo Zero使摆脱对人工标注样本依赖成为可能,对人工智能发展极大推进。阿尔法狗算法建立在传统的DNN网络决策基础上,而这对于小样本应用领域(比如医疗图像处理)是不可能办到的,而AlphaGo Zero通过实现“无师自通”,摆脱对人类经验和辅助的依赖,类似的深度强化学习算法能更容易地被广泛应用到其他人类缺乏了解或是缺乏大量标注数据的领域。

DeepMind创立于2010年,专业研究人工智能。2014年谷歌4亿美元收购该公司,现已成为AI界的明星。2016年DeepMind研制出能够生成模仿人类语音的系统以及一款能够用自己的记忆学习新知识并利用这些知识来回答问题的计算机,并应用到医疗保健行业。

AlphaGo Zero的面世,从阿尔法狗算法、算力到训练方法和网络基础结构的建立,较“阿尔法狗”相比都有了很大的提升与进步,使其在各种复杂变动的棋局下做出精准决策,更好地实现人工智能目标。

现在来看,AlphaGo Zero更像是拥有了自己的“思维”,可以像人一样的自主学习,去根据实际情况回答和解决问题,这是相当厉害的,这在以前我们也只能在电影中可以看到,现在几乎可以实现了,未来的世界也行会超出我们的想象,这也会带给我新的机遇和挑战!