为什么李世石注定会输给 AlphaGo

摘要

巅峰对决之前,Google 早已机关算尽。

预测、直播、逆转、人类最后的尊严……AlphaGo 与李世石的人机对弈铺满了各大媒体头条和你的社交网络。首战的结果,李世石投子认输。

「挑战人类智慧的试金石」、「捍卫人类智力的尊严」,除了科技「卫道士」们一如既往地泾渭分明,各类营销账号和八竿子打不着的公司开始变戏法似的借力打力宣扬所谓技术的「奇点」,之如之前的「引力波」。

所以,你还是会一头雾水地在各种相互引用的术语和评论间进行似懂非懂的预测。

-「我押李世石会赢!」

-「人工智能会让你大吃一惊!」

忘掉那些过度消费,从一开始李世石注定会输给 AlphaGo。所以,这篇文章不会告诉你太多技术真理,这只是一盆冷水。

科技赌局背后的心机

为什么选择樊麾和李世石?怎样保证比赛第三方监督的公平?面对这些问题,樊麾和李世石以同 Google 的约束性条款限制为由应付着媒体们的质疑。

而就在今年 1 月 28 日 Google 宣布击败欧洲围棋冠军、百万奖金挑战李世石的当天,Google 的股价上涨 4.42%,相当于 200 亿美金,谷歌也成为继苹果之后,第二家市值突破 5000亿美元大关的科技公司。这对于进入 2016 以来股价持续走低但财报日将近的 Google 无疑是个重大利好。

一个私密测试,一个公开直播挑战,两种截然不同的处理却是同一种稳操胜券的心态。

樊麾虽然是前欧洲围棋冠军和法国围棋队教练,但水平和世界顶级职业选手的差距还是很明显,他自己也曾自嘲「下得不怎么好。」但是这却很符合 AlphaGo 测试需求的定位:有一定实力,但也不至于那么强;而且,名头也不差。

之前所有的围棋软件最大的毛病是会下一些毫无道理的「电脑棋」,可以简单理解成「昏招」。

「AlphaGo 最厉害之处,就是不下电脑棋,不下特别奇怪的愚蠢的棋。如果你不提前告诉我,我完全感觉不出来对面是一个程序,它下棋的方式,很像真正的人类棋手。」

樊麾在接受媒体采访时表示,心理上的不确定和实力上的差距让他的完败显得「无话可说」。

樊麾.jpg前欧洲围棋冠军、法国围棋队教练樊麾

但是,在官方公布二者的对阵棋局后,不少围棋圈专业人士却表示却对比赛水平提出了质疑。

「从双方的对阵来看并不觉得这是一场高水平的较量,如果 3 个月后 AlphaGo 还是这个水平,应该会很难战胜李世石。」

同时,Deepmind 团队在 Nature 的论文发表之后,Facebook 迅速作出反应宣布了几乎同样的发现和成果,许多人工智能专家也对媒体过度吹捧 AlphaGo 表达了不满。

那我为什么会说「李世石一定会输给 AlphaGo」?

熟悉围棋的朋友应该都知道李世石有个外号叫「僵尸」,这源于他「僵尸流」的棋风,即总在局面不利的情况下绝地反击;相应的,他也时常在一些局面占优的情况下丢掉比赛。

而这种明显的战术风格也很容易在算法上进行针对性设置,而且别忘了,过去三个月,AlphaGo 每天都在进行着成千上万局的模拟对弈。

今天的比赛进程也证明了这点。李世石在比赛开始时选择了他并不太擅长的进攻性打法,在 AlphaGo 出现一次重大失误后,李世石没有捉住机会一举拿下比赛,而是在之后多次的正面交锋中节节败退最终选择了认输。

让敌人用不擅长的方式应战,这是李世石陌生的套路,也是 AlphaGo 胜利的正确方法。

当然,虽然存在着商业上的考量,但这些并非对人工智能的恶意揣度。别忘了,在这次人机对战的规则中,哪怕是在未满五局的情况下胜负已分也要坚持打满五局。

毕竟,对于机器来说,一次高水平人机对抗的经验比得上上万次机器模拟测试。

AlphaGo 学会了自己思考

虽然看上去有些胜之不武,但是,如果你认为 AlphaGo 也是那些只会赚噱头的「人工智障」公司的产品那你就错了。

毕竟,打人机,人类派出的可是韩服第一上单。

「早期象棋机器会有盲点和可加利用的弱点,而且吸引棋手的是将(利用)这些(弱点)作为目标,而不是正儿八经对弈。对战深蓝时,我就没有抵挡住这一诱惑。心智(Mind)运动,比如象棋和围棋,需要高度集中的精神,当你的注意力被试图对计算机耍花招打乱时,最终就是诱惑自己下出客观上并不可靠的棋招。随着机器变得强大,这些做法会受到惩罚。」

20 年前曾输给 IBM 「深蓝」机器人的国际象棋大师 Garry Kasparov 输给了曾经的「穷举法」,而 AlphaGo 进步的地方在于,他在更为复杂的运算体系里只使用了「穷举法」几千分之一的计算量。

深蓝胜利.jpg电视直播「深蓝」战胜 Garry Kasparov

简单地说,AlphaGo 学会了自己思考。

AlphaGo 的核心是两种不同的深度神经网络——「策略网络」(policy network)和 「价值网络」(value network)。它们通过相互配合来计算出相对有优势的步法并摒弃差棋,从而将计算量控制在计算机可以完成的范围里。

策略网络和.jpg

在「价值网络」中,AI 会一边推算一边判断局面,当局面处于明显劣势的时候,机器便会就直接抛弃某些路线;而「策略网络」则负责减少搜索的宽度,将那些棋步是明显不该走的放弃并避免无端送子给对手吃。通过将这些信息放入一个概率函数,AI 便可以重点分析优势的步法而不用给每一步以同样的重视程度。

这种「思考」的方式本质上和人类棋手所做的一样。与之不同的是,人类在长时间的比赛后难免会因为疲劳而犯错,但机器不会。而且机器能通过每天近 100 万局的训练来不断提高,而精力的限制却似乎只能让人类随着时间的积累而束手就擒。   

与此同时,Google Deep Mind 团队还采用了「监督学习」(supervised learning) 的方式让 AI 和自己进行对弈,这种「强化学习」(reinforcement learning)的方法也能让 AI 长期处于高水平的对抗中。这也是 AlphaGo 最可怕的一点。

虽然如此,我们时至今日也没有让机器自动化这个概念实现真正意义上的突破,大多数机器还是只能进行一些重复的运算和工作,不能从复杂的环境里面学习到一个事物跟另一个事物之间的关系,它需要人不断地去引导。

「无论哪个搜索引擎,做图像搜索的时候,因为它没有概念,我们需要用手圈一下,告诉它识别这个部分的图像。而不像人一样,人站在这个讲台上时候,非常容易能够把人和背景抽离开。我看到别人是怎么找出租车的,我一招手就能够学会。」

搜狗 CEO 王小川认为,人有概念之后能够一次性建立推理能力,但今天的机器还不具备这个能力。这就好比,人靠一张图片便可识别什么是「猫」,而 Google 通过 200 万张图片的测试才将图片识别的准确率提升到 75%,而对概念的缺乏也让 Google 将非洲妇女识别为猩猩,这当然引来不小的争议。 

智能搜索、推荐和各类电子助手正让你的生活变得越来越便捷,但关于无人驾驶和 AI 未来的安全性担忧也从未消减。

抛开那些概念性的探讨和对人工智能「挂羊头卖狗肉」似的跟风,我们更应该关注的是如何有效提高技术的效率和实用性,这要大于比赛本身的意义。

最新文章

极客公园

用极客视角,追踪你最不可错过的科技圈。

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

顶楼

关注前沿科技,发表最具科技的商业洞见。