新“阿尔法狗”远超人类仍不解围棋真谛

最近几日,一个名为「大师」(大师)的神秘帐号,在两大围棋在线对弈网站上,横扫世界顶尖职业棋手。在豪取59连胜后,AlphaGo团队自报身份,「师父」就是去年的AlphaGo「阿尔法狗」升级版。它第60局对手为中国的古力九段。最终,「万事达」以2.5目小胜古力,以60胜0负的战绩结束了它的网络测试。

新“狗”60连胜无人能敌

2016年12月29日晚7点多,一位名叫「万事达」的新手登录围棋在线对弈网站 – 弈城,起初并没有高手搭理他,但在战胜谢尔豪四段,孟泰龄六段,于之莹五段,韩一洲四段,乔智健四段后,这个帐号热度陡增。当晚,「师父」十战全胜,显然出世不凡。

第二天中午法师再度现身,在与王昊洋六段,严在明三段等职业棋手的对战中取得4连胜后,引出了韩国第一人朴廷桓九段。结果,朴廷桓在必败局面下超时负。此结果在高手中炸了锅,接着等级分排名第七的连笑七段登场挑战,结果连败两场。

接下来,代号为「吻别」的棋手登场。棋友公认的说法,「吻别」即是排名世界第一的中国棋手柯洁九段,但结果同样令人目瞪口呆,「吻别」执黑,执白各败一场,尤其第二局,仅用128手即与对手「吻别」0.24小时内,给当今棋界四位高手每人送上一个0比2。

2016年结束时,在弈城网上,「法师」在与包括中,韩顶尖职业高手在内棋手的对战中,创下26胜0负的战绩。「大师」到底是何方神圣,令人遐想。

今年1月1日休息一日后,1月2日「万事达」继续它的连胜之旅。这一天,曾经是中国围棋第一人的古力应战,结果连输两盘。直至1月3日下午,「万事达」已经取得45连胜,败者名单里包括柯洁,古力,陈耀烨,芈昱廷,唐韦星,韩国第一人朴廷桓,日本第一人井山裕太。

4日下午,64岁的聂卫平挑战「万事达」。这场对局「万事达」特意将比赛用时调整为每方1分钟一手,以示对聂卫平的尊敬。此前的比赛,均为20秒或30秒3次的超快棋,「万事达」每手棋5秒即落子。最终比赛进行至254手,执白的聂卫平以7目半的较大劣势落败。

最后一局对阵古力之前,万事达自曝身份为:新版「阿尔法狗」;而柯洁同样发布消息称,早已知道「万事达」真身而为「阿尔法狗」执棋的就是去年3月为AlphaGo执棋的黄士杰博士。最终,新版「阿尔法狗」执白,以2.5目优势战胜古力,完成60胜后收官。

距围棋真谛仍遥不可及

从这些比赛对局来看,新版「阿尔法狗」的棋力已经远超人类,尤其在快棋方面,它的计算优势更加明显。虽然它的大部分的招法,和人类棋手的想法接近。但几乎每盘它都有让职业高手看不懂的着,不知道它这一步要做什么?另外,它敢打破古老定式走法,但仍能保持优势。

「阿尔法狗」每一步估计是以全局进行运算,对局部的得失并不看的太重。赢1目和赢十目对它来讲,可能没什么不同。比如,在取得领先优势后,它会下出初学者的损着。因为胜负早已锁定,这些初级招法并不会影响比赛的最终结果。就像「飞人」博尔特冲刺时,因领先太多,有意放慢步伐,左顾右盼一样。

但如果它判断形势对自己不利,它的着法也会变得异常凶狠,比赛立马会变得激烈起来。不过由于没能遇到多少真正的对手,「阿尔法狗」总的表现相当温顺。

从目前来看,人类要想战胜「阿尔法狗」已经几乎不可能,但职业棋手们并不愿意承认这一点,也许通过慢棋的「让先」或许「让子」比赛,人们更容易看到双方实力的差距。

其实,换一个角度来看,在这场「人机」大战中,或许真正的赢家,还是围棋本身。藤泽秀行棋圣曾经说过,「棋道一百,我知其七」。如果把棋道的终点看做一座圣山,那么对于人工智能和人类棋手而言,这座山同样遥不可及。「阿尔法狗」只不过是在去掉了人类的情感,提升了计算能力后,以人类目前对围棋的理解方式来下棋而已。

那么,古人留下来的「围棋」到底是用来干什么的呢?一定是为了争胜负的吗?它的黑白,阴阳平衡关系又代表了什么呢?这些对当今人类来讲仍然是个谜。

透视“阿尔法狗”背后的机器学习算法

世界排名第一的围棋棋手柯洁与谷歌旗下的人工智能机器人AlphaGo(“阿尔法狗”)5月23日至27日在乌镇的对弈,吸引社会广泛关注。这是“阿尔法狗”去年3月大胜韩国棋手李世石后,与围棋大师的再次交战。不出意外的是,柯洁连败三局。

引领“阿尔法狗”出奇制胜的系统,是一套“深度学习+强化学习”的算法模型。在人工智能的日常应用中,能够进行小样本分析的“迁移学习”算法模型也十分重要业内。专家表示,未来人工智能的发展趋势将是深度学习,强化学习,迁移学习三者融合互补。

阿尔法狗”不断进化:

深度学习+强化学习

去年韩国职业棋手李世石曾与“阿尔法狗”对弈,采取的五局三胜制,最终“阿尔法狗”以4:1获胜今年柯洁与“阿尔法狗”对弈改变了规则,仅比三局,柯洁连败。

“阿尔法狗”的“大脑”,是机器学习系统,即一套机器模拟人脑运算的体系。支撑“阿尔法狗”的机器学习算法,是“深度学习+强化学习”。

先来解释深度学习。美国人工智能学会理事,香港科技大学计算机科学及工程学系主任杨强告诉记者,实际上,人工智能技术已走过了60年历程,直到近年来机器学习技术中的深度学习算法取得突破,才迎来春天。深度学习概念由加拿大学者Geoffrey Hinton提出并不断完善,意为使机器模仿人脑神经网络的学习,判断和决策能力。

在深度学习过程中,数据至关重要,是训练机器智能的沃土。去年在对弈李世石前,“阿尔法狗”以半年时间集中模仿学习了3000万步人类围棋大师的走法,并从自我对弈中积累胜负经验。

与去年相比,今年,“阿尔法狗”的算法有三大显著的进步。

阿尔法狗”项目负责人David Silver介绍,最好的训练数据不是来自于人类,而是来自于“阿尔法狗”自己,利用其强大的搜索能力,生成数据,让下一代的“阿尔法狗”学习。由于数据优质,算法高效,因此“阿尔法狗”计算量仅为去年对阵李世石时的1/10。

其二,由多机运行升级为单机运行,更便于应用。去年“阿尔法狗”使用了谷歌云上的50个左右TPU,使用多台电脑运行,而今年的“阿尔法狗”使用了4个TPU,单台电脑即可运行。

其三,强化学习重要性进一步凸显,机器自我决策能力大大提高。人工智能强化学习概念,借鉴自心理学,即机器会在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。强化学习的本质是实现“自动决策”。机器会在没有任何指导,标签的情况下,尝试行为,得到一个结果,再判断是对还是错,由此调整之前的行为,通过不断地调整,算法持续优化。搜狗CEO王小川认为,强化学习的算法更接近于人类的思维模式。

目前,深度学习和强化学习的算法已经得到了一定的应用。研发“阿尔法狗”的团队,谷歌旗下的DeepMind公司已与英国国家医疗服务体系(NHS)合作,与眼科医院共同开发一套用于早期识别视觉疾病的机器学习系统,通过对眼球扫描图像的分析,发现糖尿病视网膜病变,老年性黄斑病变的早期症状。

国内云知声,科大讯飞公司运用深度学习算法,开发了语音识别系统,在北京市的部分三甲医院应用,语音录入病例,节省了医生的大量时间。第四范式公司利用深度学习算法,为银行开发了风控模型。还有诸多巨头都在开发人工智能的“对话机器人”,如微软的“小娜”,谷歌的“异体”,苹果的Siri的,百度的“度秘”等,均应用了深度学习和强化学习的算法。

迁移学习:

人工智能新高地

目前的深度学习和强化学习算法,虽然进步迅速,得到了一定的应用,但仍面临一定局限性。

杨强表示,深度学习的局限性在于,必须依赖庞大且优质的数据量。然而目前,数据源,数据算法,数据应用的市场高度分离,数据高度集中在谷歌,脸书,亚马逊,BAT等互联网巨头手中,高质量的大数据高度垄断,不易获得。

强化学习的问题在于,不仅速度慢,反馈延迟,其分析的数据还有可能和大部分数据不同,存在数据偏差,在这样的情况下,强化学习就会“将错就错”,运算结果不可信。

面对上述局限,迁移学习的方案出现了。2005年,杨强在全球计算机学界率先提出“迁移学习”概念,强调“深度学习+小样本”理念,即将大数据训练好的模型迁移到类似场景改进应用,其特征是小数据,冷启动,打破了“逢模型必大数据”的局限。

“比如,将骑自行车的经验应用在骑摩托车上,就是迁移学习。 ‘阿尔法狗’ 能适应19×19的棋盘,那么,如果要迅速适应21×21的棋盘,就需要迁移学习算法”。杨强说。

2005年,微软举办的世界数据挖掘大赛中有关于搜索技术的竞赛题目,杨强团队利用迁移学习,将机器在其他领域的经验迁移过来,夺得了三项大奖的世界第一。

在IT行业,迁移学习已有局部应用。第四范式公司创始人戴文渊在百度负责名为“凤巢”的广告营销系统时,利用迁移学习将百度搜索算法应用到问答社区“百度知道”,使后者点击率提升四成;腾讯将大规模在线电商推荐任务迁移到新领域,大大减少了数据需求量;微软也利用迁移学习分析了电商产品的舆情取向同时,杨强还曾在华为创立人工智能领域实验室,利用迁移学习技术研发了十几个智能移动终端的专利,已在国内外注册。

深度学习,强化学习,迁移学习

将深度融合

业内人士认为,深度学习,强化学习,迁移学习各有千秋,互补性强,未来,三者融合发展将是人工智能行业的必然趋势。

目前,融合的趋势已经出现。曾经不被热炒的迁移学习概念,在2016年以来得到了业界广泛关注。脸书(Facebook)人工智能负责人Yann Lecun,提出深度学习概念的Geoffrey Hinton,斯坦福大学人工智能实验室主任吴恩达等人,都开始对迁移学习发表评论.DeepMind也将把迁移学习与深度学习融合的技术作为突破口全力攻克。

在今年国际权威学术会议“神经信息处理系统进展大会”(NIPS)上,迁移学习的文章数量大幅增加。杨强是评审委员会委员,他告诉记者,今年有关迁移学习的论文有60多篇,而往年只有约10篇。

杨强表示,深度学习和强化学习,都可以和迁移学习相结合。

深度学习有不同的层次和类型,运用迁移学习技术,可以利用彼此相通的部分,减少训练算法所需要的数据。比如,处理文字识别的深度学习模型和处理语音识别的模型有所不同,但彼此相通,就可以利用迁移学习模型。

强化学习的优势在于自动决策,这一特点与迁移学习,深度学习结合,就可以最大限度地实现算法的智能化 – 样本量大的时候,用深度学习技术;样本量不够,就让算法模拟少量的样本进行学习。

去年起,机器学习领域,蒙特利尔大学学者率先提出的“生成式对抗网络”成为热门概念。这一算法,就是将深度学习,强化学习,迁移学习相结合。

这一模型中,有两个博弈方,分别为“生成式模型”和“判别式模型”。前者不断捕捉训练库里真实数据的概率分布,将输入的随机噪声转变成新的样本,也就是“假数据”;后者判断前者生成的数据是否符合原始真实数据的分布特征。

杨强表示,生成式模型其实是利用小数据去模拟大数据,而判别式模型则可以防止模拟结果走偏,随时纠正。小数据模拟大数据,正是迁移学习的特点,而算法的判断能力,则有赖于深度学习和强化学习的基础。未来,三种算法的融合,将成为行业趋势。在O2O,自动驾驶等领域,数据瞬息万变,应用潜力巨大。

机器学习的算法成果显著,面临的挑战也十分突出。

开发语音识别技术的公司云知声CEO黄伟表示,人工智能的应用可以按照机器思维能力分为感知,认知和主动思维三个阶段。目前,人工智能仍然处于感知和认知的阶段,远未实现主动思维。

杨强表示,目前限制机器学习算法应用的一大阻碍就是数据量不足。因此,拥有算法技术的个人和机构,必须广泛地获取数据,不断拓展机器学习的潜力。

经营智能营销业务的神策数据CEO桑文锋表示,智能算法的应用场景仍然需要得到进一步的开拓,这要求企业同时具备一流的技术能力和高超的市场开拓能力。“智能技术只有解决真实的问题,服务真实的场景,才能得到飞跃式的发展。”桑文锋说。

AlphaGo 聂卫平:“给我一个教训”

赞扬AlphaGo

64岁聂卫平表示,他最近身体很好,特别喜欢新事物。“现在这种竞争也是一个围棋改革,相当于在深圳改革和对外开放的领域。”他与记者在一次采访中说,“我也思想解放,现在只要是好的,去促进作用,继续发展,如何改革,我将尽我最大的努力支持。”

几周前李se-dol和AlphaGo“人机大战”。”在比赛之前,我做梦都认为电脑会判断错误。如果现在再让我预测,我决定闭上嘴。AlphaGo让我惊讶的是,后来真的很不容易预测的。

比赛是如此困难

几年前,他在北京郊区有一个花园,从慢生活的经验继续生活。

他说自己的感觉是整个过程“非常紧张”,因为比赛需要暂停,替换,需要有很好的临场应变能力。

几天前,南宁天元团队战胜成都恒泰团队,总分2 – 1赢得冠军。

每一方都需要40分钟,每移动10秒。暂停了三次,三个替换的机会,大大增加了悬念和戏剧性。自去年开始的6月13日,在超过20个城市开设了超过100场比赛。

经过激烈的搏斗,南宁天元团队与成都恒泰团队晋级最后的决赛,2月27日和3月5日,双方前两局的比赛,南宁天元团队和成都恒泰团队分别坐镇主场获胜,双方1比1。3月27日在北京举行的决赛,双方女性玩家作为开始。三场比赛后,南宁天元你玩黑版赢得了213手。

聂卫平:AlphaGo给了我一个阴影

昨天2015 – 2016赛季联赛总决赛在北京国际会议中心,南宁天元团队——打成都恒泰,总比分2比1赢得了冠军,获得奖金800000元。

不像其他棋类游戏,通过职业选手和业余选手混搭,两队都在变化,和教练和球员还可以讨论,头脑风暴准备下一节的球员。

比赛间隙,聂卫平接受采访,他认为形式新颖,吸引更多的球迷,但因为这是专业和业余混搭,因此不适合他加入。当记者让他预测比赛结果,他说AlphaGo出现以来,他已经无法预测。

聂卫平说他可以帮助推广活动,只要是新事物我想支持,这是比赛的改革。专业和业余混合使结果充满不确定性。体育是竞争,没有人看一场一边倒的比赛,必须有一个变量。

聂卫平说,人机大战以来,自己无法预测结果,现在,让我判断未来的局势,我很难确定。AlphaGo的输入并不是很多,聂卫平表示。

李se-dol:我不能超过AlphaGo

赛后的新闻发布会上,李se-dol说平时很少打领带出席重要场合,新闻发布会上说,李se-dol1 – 4输掉这场比赛人机大战,让自己感到很抱歉,这只是他个人的失败,而不是人类的失败。

“领带”李se-dol非常隆重地参加这次会议

AlphaGo之父,萨比斯说:“今天的比赛很精彩,李se-dol和AlphaGo透露了一个非常激动人心的比赛。开始AlphaGo犯了一些错误,然后他抓住机会扭转局面。AlphaGo性能很好,对于存在的问题,需要回到伦敦后再详细研究。”

李se-dol说首先,1 – 4失去人机大战他感到很抱歉,他说:“很遗憾,比赛结束后,并最终未能实现他们的想法。这是我个人的失败,不是人类的失败。今天我有一个良好的开端,但暴露了我的不足,暴露了我的缺点。非常感谢你对我的支持,我会继续努力,争取更好的李se-dol。”

又如果AlphaGo比赛,李se-dol说:“人类心理的真相难以摆脱它,如果我不能确定AlphaGo再次赢得比赛。我不能专注,这些方面的人类不是赢得AlphaGo。”

记者问李se-dol,五局是否人机战争改变了他对比赛的理解,李se-dol回答道:“人类可以做更多的事情,事实上,很多人都可以挑战AlphaGo。真的感到有些后悔,人类在人类战斗可以显示更多。”

哈萨比说一切都还没有决定,是让AlphaGo继续在游戏开发领域,或技术的发展转向其他领域,造福人类。

 

李se-dol对战AlphaGO

3月12日,李se-dol在第二局比赛,显然可以主动打开生存的机会,但最终他没有选择改变,它在赛后成为了关注的焦点,第二,有些人甚至质疑谷歌之前和李se-dol签署保密协议不允许战利品。

据韩国媒体报道,李se-dol研究了一整夜寻找处理AlphaGO策略。最后,大家一起得出这样的结论:AlphaGO,必须依靠复杂的动作。

今天的比赛后,双方在左上角第一次激战,AlphaGO在左上角的三个黑色的中风包围。李se-dol积极打击竞争对手,AlphaGo虽然攻击黑龙,白色也50岁以下,60手,看到它的效率并不低。

李se-dol左边的上下两个龙一旦所有面临生与死的情况下,顽强地连接两块板,攻角和住在左下角。但黑色移动很多手被白色包围在左边,和白色——回到外围发展,使用墙抓更多的领域。

李se-dol五路77号在右手,吹响了反击的号角,直接针对目标做上面有17个龙的儿子。但90后的白色的手略做上面解决,积极黑继续攻击右下角。第98手白色。那么几步,AlphaGo右上角的地方过于保守。

白色的手在左上角点104角,下了一场非常激烈。

双方在左下角形式ko战斗,但李se-dol没有寻找回来的机会,AlphaGo解散了李se-dol进攻。第176手,李se-dol清单认输。在这一点上,李se-dol 3:0的人机大战。李se-dol实际上已经失去了人机大战。

 

AlphaGo赛后获得了世界第四的排名,柯洁公开挑战

中国古话说的好:因祸得福,背后的厄运会好运。谷歌AlphaGo人机大战在昨天的第四场比赛输给韩国棋手李se-dol,这是第一个打败它的事业。然而,正是因为失败,AlphaGo正式进入世界职业球员。

如果一个球员从未遭遇失败,不会进入排名统计数据。

自去年10月以来,AlphaGo连续战胜欧洲球员可能风扇和韩国棋手lee se-dol总情况目前是8。GoRatings.org AlphaGo排名世界第四,仅次于中国柯洁。而韩国棋手李se-dol 被AlphaGo击败位于世界第五。

在赢得世界排名AlphaGo DeepMind研发工程师利亚的塞尔玛(Raia Hadesell)在Facebook上公开表示,现在AlphaGo 3533点,在世界上排名第四。柯洁,你准备好了吗?

比赛谁胜谁负感兴趣的用户请持续关注。

 

AlphaGo开发者:没有秘密协议

3月11日,李se-dol人机AlphaGo战争输掉两场比赛。

黄诗杰说,没有所谓的秘密协议,这种竞争AlphaGo使用分布式版本,不是一个独立的、分布式版本的单机版AlphaGo赢得比例约为70%。

黄诗杰说:“我们都应该尊重李se-dol,他接受AlphaGo挑战,压力一定很大。”

据报道,台湾师范大学信息科学研究生黄诗杰,后面AlphaGo博士不仅参与“大脑”的设计,也作为一个“手”计算机下棋。

这是黄诗杰在论坛“弈棋挺好”最初的反应:

现在网络上有很多谣言,有些人甚至进行人身攻击李se-dol,我觉得有必要澄清。这个游戏不管结果如何,我认为我们都应该尊重李se-dol。他接受AlphaGo的挑战,压力一定很大。

 

谷歌AlphaGo计算能力如何?

人机世纪战争,谷歌计划AlphaGo对抗韩国的李se-dol比赛仍在进行时,可以面对9段主李se-dol AlphaGo“竞争对手”,不禁问AlphaGo计算能力有多强?

搜狗的CEO王小川说AlphaGo计算能力是IBM计算机“深蓝”的30000倍。AlphaGo强大的学习能力,它使用蒙特卡洛树搜索算法,借助网络和战略价值的深度两种神经网络,通过价值网络评估大量的选择,并通过网络的放置策略选择。机器最初通过模仿人类玩家,尝试匹配职业棋手,一旦达到一定的熟练程度,开始和他的游戏很多象棋,深入研究进一步提高它的使用。

众所周知,IBM的“深蓝”生产的超级国际象棋计算机IBM,重1270公斤,32岁的大脑(微处理器),每秒可以计算2亿位置,计算能力11.38 GFLOPS,进入一百多年来优秀的棋手二百多局的比赛。

此外,目前世界上最快的计算机是中国没有的。天河浮点运算能力已经达到了33.86 PFLOPS,深蓝的300000倍。

 

哈萨比斯:AlphaGo没有注意到第79手错误

3月13日消息,AlphaGo 创始人拉梅什,萨比,(黛米斯)发布了一个twitter赛后祝贺李se-dol。

哈萨比,说AlphaGo第79手旁边的错误,他解释道,“观点”和“意识”是指AlphaGo价值网络的输出值(注:判断的价值网络,即AlphaGo每一步都会做出有价值的判断)。79年,产出价值判断给出的值在70%左右移动,在87年底,产值开始直线下降。

人机战争游戏4:李se-dol首次赢得了胜利

AlphaGo,87出现混淆,哈萨比,说他们很高兴看到李se-dol今天表现,他让AlphaGo犯了一个无法弥补的错误。

在比赛前,AlphaGo已经周三,周四和周六,击败李se-dol后三场比赛。

连续的三场比赛,赛前大多数人在这个领域赢得了李se-dol看起来并不好。胜利的转折点是在李se-dol78手,下午约四点三,AlphaGo认输,李se-dol在伯恩利后的首次胜利。