陈经：感谢李世石 AlphaGo的命门其实很简单-白雪棋院

白雪棋院

联系电话：400-079-0573

邮箱：zyl@baixueqiyuan.com

地址：嘉兴市中环北路塘汇路路口

当前位置:主页 > 围棋 > 新闻动态 >

陈经：感谢李世石 AlphaGo的命门其实很简单

时间：2016-03-15 13:37 作者：嘉琪来源：观察者网点击：次

李世石

　　这个局面特别复杂，把整个棋盘中间都卷进去了，可以说根本不是地块划分的问题。决定性因素就是怎么出棋，出多大的棋，出劫的话怎么造对自己有利的劫。从 AlphaGo的算法来看，它会从当前这个局面进行搜索展开，对叶子节点给出判断。一半是靠价值网络，一半是靠“快速走子策略”走到终局。

　　价值网络的意思是，它静态地看整个盘面，用一个多层的神经网络直接算，就报告这个局面谁会胜。虽然它能“深度学习”到很多隐藏的概念，我们很难想象，在一个火药桶一样的盘面上，一个静态的不搜索的神经网络居然可以判断清楚最终的胜负。这种复杂局面，我断定价值网络的判断误差是极大的。也许价值网络在各种叶子节点粗粗地一看，黑棋在中间以多打少似乎应该是形势一片大好。这应该不难理解，无论谷歌怎么拿几亿个局面训练价值网络，我也不相信它能判断清楚。

　　那么AlphaGo在叶子节点还有一半的机会，就是“快速走子”你一招我一招不停直到终局。这个快速走子策略的实力还不错，速度比策略网络快1000倍的情况下，单只靠这个策略就有KGS的3D实力，做得其实很好了。但我们再想想，这么复杂的盘面，两个KGS的3D在那下到终局，你信得过它们的模拟质量？黑死还是白死估计就是随机的了。如果让两个真实的人类3D在这个局面下，黑好白好确实可能等于扔硬币。

　　如果“快速走子终局”给的结果是随机，基本就是价值网络在那主导判断了。它要是有系统性的错误偏向，误以为黑形势一片大好，那可能一大堆叶子节点都有类似错误，因为盘面很相似。所以综合起来，AlphaGo的MCTS模块，让价值网络在那高兴，下了83和85还是继续高兴，胜率还是70%。终于在白下了 86，黑87后，价值网络发生了“跳变”，这里出现了棋块特征的本质变化，一大片类似叶子节点的价值网络判断都倒转过来，于是只一手，胜率就从70%跳到 30%之类的悲惨数字了。

　　这是我的猜测，只能尽量地往合理上靠，最终如何希望Deepmind能给出分析。但是显然，复杂的对杀盘面会对价值网络造成严重困扰，这应该是 AlphaGo体系架构中一个不太好消除的命门。同时复杂的对杀盘面，又让“快速走子策略”模仿精度下降。要是两个3D在那下和平棋终局，你占10目我占 9目，错进错出最后一平均是可能把局面好坏概率性模拟清楚。但要是50-50%机会的大对杀，就和其它地方无关了，模拟到最后也提供不了什么有效信息。

　　AlphaGo搜索中的两个武器都失灵了，就只有依靠“策略网络”提供的各个候选点的概率了。同样的原因，这个策略网络只是一个静态评估，复杂盘面各处头绪很多，各种要点多得是，看上去的好点到处都是。我不相信策略网络就那么凑巧对真正的好点给出高的概率。

　　可以非常合理的认为，对于复杂的、头绪很多的对杀盘面，AlphaGo所有的搜索武器都会失灵，容易做出错误选择！三大搜索武器“策略网络”、“价值网络”、“快速走子终局数子”，全都失灵！（观察者注：关于AlphaGo三大利器，田渊栋的这篇《AlphaGo的分析》做了很好的科普，作者为前谷歌工程师，Facebook智能围棋 darkforest 的负责人和第一作者）

　　都失灵了，不管你怎么调参数拼凑一个MCTS架构，最后也还是失灵。这就是AlphaGo的命门！

　　让我们人类开心的是，这并不是很难实现的！我和Zen下过，水平不够怎么也下不过它。要么局部被它杀死，要么圈地大局观搞不过。但是下多了，慢慢也琢磨出来了办法。就不要怕它，这里开一片头绪，那里开一片，留着不动。然后各种头绪慢慢凑一起，这里的选择会影响那里。这种情况下Zen就昏了，它的搜索武器其实比AlphaGo更差，更是全都失灵了。我虽然也昏，但就死盯着某一个“阴谋”，设计一条路线图就够了，不去搜索那么多乱七八糟的。最后哈哈，Zen上当了，我阴谋得逞，吃了一大片终于赢了。其实我的水平真的远不如Zen，各个局面手段和大局明显不如。

　　那么对李世石这样的职业高手来说，复杂盘面更不是个事了。职业高手能理清楚复杂盘面的推理逻辑，用清楚的变化图给出杀招。这正是体现大高手水平的地方。

　　因此我大胆推测，AlphaGo其实没有那么可怕。所有MCTS为基础的程序都有的大漏洞，它一样有，而且从算法角度没有什么好办法解决！这是算法原理决定的，不是写程序代码错了几行的小bug。

　　如果职业高手们了解了AlphaGo的漏洞，就不要客气搞什么棋理圈地，直接就上去跟它杀！但不要在局部乱杀，不是说“在此决一胜负”，如李世石第一局开始的杀法，不对。要这里留点味道，那里留些头绪，最后这些乱子凑到一起去，一定把AlphaGo弄昏头。（观察者小编：这里一点，那里一丝，留有余味。人类的暧昧啊，阿尔法狗暂时还学不会）

　　因此，除了“不喜欢打劫”以外，AlphaGo还不喜欢复杂的盘面。所以前三局中它表现得特别喜欢定型，有手段就使出来，减少头绪。这是它的搜索特性决定的。

　　分析清楚以后就可以肯定，AlphaGo的漏洞不小。开始人类不了解它，看它下得象模象样，还时不时有好招，被它吓到了，没有找到它的命门。它是有几招绝活玩得不错，封闭局面算得不错，圈地运动搞得不错，几百万次算到终局去人不可能玩得过。选点也很靠谱，算得快算得准。在它擅长的领域和它打，当然就不是对手，哪怕是人类最高水平的也不行。但复杂盘面是人类的天生优势，这不是MCTS那几招搞得定的，需要人类高手制造头绪归纳头绪的逻辑能力。

　　AlphaGo的缺陷被测试出来以后，人类高手将可能对机器取得压倒性的胜利。当然人类高手需要改变下法，不要和自己人下那样讲棋理数着目下。碰到机器就要搅，越复杂越好。不是一处变化多手数多那种复杂，而是搅出的头绪越多越好。

　　这还没有提到打劫的能力，这更是人类高手胜过机器的地方。机器可以用控制流避开劫争，但这终究不是办法。如果人想通了，自己不要虚，大胆引入劫争分支，机器总是避劫原理上就不合于棋道。当然这个分析起来更复杂。

　　综上所述，如果高水平围棋程序还是基于MCTS架构的，都会有难以解决的大缺陷。我对人类高手一段时间内压制机器充满信心！

　　都失灵了，不管你怎么调参数拼凑一个MCTS架构，最后也还是失灵。这就是AlphaGo的命门！

　　综上所述，如果高水平围棋程序还是基于MCTS架构的，都会有难以解决的大缺陷。我对人类高手一段时间内压制机器充满信心！

上一篇：谷歌的“棋路”：围棋“人机大战”的商业玄机

下一篇：输赢又怎样李世石九段的身世已经打动了我