看似惜败实则毫无胜利希望－从AlphaGo与柯洁的第一战说开去

触宝硅谷大数据和人工智能实验室数据科学家许俭

虽然柯洁仅仅一1/4目之差“惜败”给AlphaGo，但实际上AlphaGo完全处于统治地位。AlphaGo的学习目标（也是实战时的行动目标）是最大化赢棋的概率，而并不是将赢多少目最大化。所以可以认为他是一个永远淡定的总是求稳的棋手，即使有机会大胜也不会去冒险。所以柯洁有一种“输得没脾气”的感觉。实际上如果AlphaGo稍微冒险一些，可能可以赢得更多，只是他宁愿最小化风险。

这两天和朋友、同事一直在讨论柯洁大战AlphaGo，也讨论到一些更深层的问题。觉得挺有意思，而且很多人不知道我现在所在的触宝硅谷实验室具体做些什么。就想以问答记录的形式写点什么吧。

Q. AlphaGo 2.0相比1.0在技术上有哪些提升和改进？主要克服的技术难点会有哪些？

A. 从目前公开的材料看（主要是Aja Huang博士的发帖和Demis Hassabis、David Silver的问答记录），AlphaGo 2.0 （还是称做"AlphaGo Master", 虽然对之前网络上60战全胜的Master可能又有改进）有如下一些改进：

1. 使用了40层的神经网络作为模型，相比与李世石对战时的AlphaGo Lee (V18)，增加了28层。增加了那么多层的神经网络显然让AlphaGo的学习特征的能力有了更大提升的空间。另一方面， DeepMind团队有没有引入新的原始特征，有没有尝试使用LSTM等模型去处理一些特殊场景，我们要拭目以待他们后面陆续发布的结果。

2. 更依赖于大量自我对弈的结果，用上一代训练好的神经网络的对弈结果去训练下一代更强的神经网络。相比上一代(AlphaGo Lee) 更少地依赖人类的对局数据。所以王小川断言“AlphaGo 2.0已经摆脱了监督学习，不再需要人类下围棋的历史数据，而是只通过“增强学习”“ 是不准确的。AlphaGo仍然需要在最初的阶段通过学习人类棋局来达到一个相对比较高的水准，然后再自己左右互搏，否则会产生爆炸性数目的价值不大的学习样本。

3. 改进了算法：更强大的策略网络和价值网络，并发现在这个场景下算法比数据重要。我们都知道上一代AlphaGo是结合了监督学习训练出来的策略网络、增强学习训练出来的价值网络、蒙特卡洛树搜索算法三者的一个精巧设计的对弈引擎。但是由于围棋的搜索空间实在太大，即使这样的引擎跑在Google的计算集群上也远远无法在规定时间内找到最优解，因此虽然上一代AlphaGo已经很牛了，但还是有非常大的提升空间。DeepMind团队从上次AlphaGo和李世石的对弈中尤其是输的那一局中获得了很大的启发，相信他们在策略网络和价值网络的训练上又有了新的突破。非官方的渠道我们了解到DeepMind特意开发了一个程序专门寻找AlphaGo的弱点或者盲点，通过刻意和AlphaGo对弈这些存在弱点或盲点的棋局帮助AlphaGo在这些场景下学习。还有一个猜想是引入了一些机制来对获胜概率预估的可靠性进行了建模，把预估的不确定性作为一个考量因素放在落子决策里面，这样可以使得AlphaGo更加稳健。

4. 更快的计算速度，据称因为算法的改进，AlphaGo现在只需要上一代1/10的运算量。这次的AlphaGo 仅仅运行在一台TPU的单机上。运算效率的提升实际上潜在地是在同样的时间限制内获得了探索更多解的可能性，这样AlphaGo就能游刃有余地去探索一些需要更深的地方，比如原来“手下一着子，心想三步棋”，可能就可以心想五步甚至更多的棋了。

Q. 如果按照王小川的文章，AlphaGo 2.0不需要蒙特卡罗和监督学习的话，为什么当初1.0需要？而又是由于哪些原因，2.0就不需要了？

A. 从目前公开的材料看，王小川的文章是不准确的。首先，DeepMind团队已经明确说监督学习在这一代的AlphaGo还是使用了的。其次，“放弃了蒙特卡洛树搜索，不再进行暴力计算“也只是他个人的猜想，官方的介绍中并没有提到这一点。我的猜想是树搜索还是要做的，但是因为训练出了更强大的策略网络和价值网络，需要使用随机布局（rollout）的搜索空间被大大减小，甚至直接用策略网络的输出就可以达到很高的棋力。到底这一代AlphaGo有哪些令人意想不到的算法改进？DeepMind团队已经承诺在近期的论文中会公之于众，让我们拭目以待。

Q. 监督学习、机器学习和深度学习的区别是什么？能否科普一下？他们和人工智能又是什么关系，是否是人工智能中的常用技术？

A.下面这张图很好地概括了这些概念的关系，还包括了和大数据、数据科学、数据挖掘等概念的关系。

“监督学习”是一类机器学习问题，意思是让机器在有指导的方式下进行学习。这里“有指导”通常是指对学习样本的标注。比如给机器一堆苹果和香蕉的图片，并且告诉它哪些是苹果哪些是香蕉，这样机器就能试图学习出一个分类器，对苹果和香蕉的图片进行分类。相应的另一类机器学习问题是“非监督学习”，比如只给机器一堆苹果和香蕉的图片，但是不告诉他哪些是苹果哪些是香蕉，这样机器可能还是能学习出来一些东西：比如它能学习出来你给他的是两种东西的图片，然而它并不知道每种具体是什么。“深度学习”是一种特殊的机器学习，它通过把世界表示成有层次的又互相连接的一组概念（每个概念通过比他更简单的概念来定义、每个更抽象的表述由比他更具象的表述运算而得），来获得更强的性能和灵活性。

基于机器学习的人工智能在过去几十年有着非常广泛的应用：比如Netflix推荐电影电视节目给用户、新闻流APP按照用户的阅读习惯推荐新闻、搜索引擎对网页进行排序等等都使用到了机器学习技术。深度学习最近几年在图像识别、语音识别、自然语言处理等领域获得了突破性的进展。现在，人们开始把深度学习应用到其他传统的机器学习问题上，如点击率预估、转化率预估，也收到了良好的效果。最近基于生成对抗网络(GAN)的技术又在图像、语音、文本合成，甚至新药物分子研发中不断收获成功。

Q. 人工智能和大数据的关系是什么？共性和差异在哪里？

A. 所谓大数据，是对一类数据和这类数据相关的一系列问题和技术的描述。这类数据可以用在3V上的“大”来描述，这3V即Volume（数据量）、Variety（多样性）、Velocity（速度或者频率）。大数据成为近年来最火的词之一，很大程度上和近十年来的技术和科研上突破性的进展有关。因为这些技术和科研上的突破，使得产生、处理、管理、挖掘、理解、利用这类数据成为可能，并且最终将他们转化为了生产力。其中，人工智能领域的进步，尤其是近年来深度学习领域的长足发展是一个最好的例子。

所以虽然原则上人工智能、或者更具体些深度学习也能处理非大数据的场景，大数据也不仅仅局限在人工智能领域（比如像Kafka那样一套成熟的实时信息流处理机制也是大数据中不可获缺的重要内容，但明显它并不是人工智能），但当大数据遇到人工智能，却有了1+1>2的效果。这是很让我们这个时代为之兴奋的。

Q. 在触宝，人工智能发挥着怎样的作用？像触宝这样的企业，大数据和人工智能研究会集中在哪些领域？主要需要攻克的难点有哪些？

A. 我们的目标是以人为本，因为我们企业的宗旨是更好地沟通人与人。结合我们的旗舰产品触宝输入法和触宝电话，我们在大数据和人工智能上的研究会集中在对用户输入行为和通话行为的理解，并创造更好用的下一代输入法和电话产品。例如在输入行为建模上，我们已经开始使用基于深度神经网络的算法来对用户接下来要输入的内容进行预测，包括下一个字、下一个词、下一个句子，甚至推荐一个最合适的表情，这将极大地提高用户的输入体验。输入法有着特殊的挑战，不同于一般的文本挖掘和行为建模问题，输入法处理的是非常异构的极短的文本，如何在这样的特殊情况下很好地学习到用户的输入习惯并做相应的预测和推荐是一件非常有挑战的事情。再比如在触宝电话中，我们使用深度神经网络学习骚扰电话的网络和行为特点，能够在一个新的骚扰号码刚出现在电话网络中的时候将它揪出来，尽早地提示到用户，最小化这个骚扰电话号码的影响范围。硅谷实验室不是一个象牙塔里的独立研究机构，而是一个致力于把最先进的大数据和人工智能技术应用到产品中、去改善几亿人的生活方式的机构。

Q. 对于有兴趣从事人工智能的工程师，有哪些建议？需要补充哪些知识？以触宝为例，企业需要哪些类型的大数据或人工智能人才？

A. 谈不上建议，说一些感受：对于有兴趣从事人工智能和大数据领域工作的工程师，我觉得需要在理论和动手方面都着力锻炼自己。学而不思则惘，思而不学则怠。理论上，除了通过线上线下的各种教材资料进行学习，更重要的是不但要知其然，还要知其所以然，这样才能融会贯通，以不变应万变。动手方面，多处理具体的数据和具体的问题，对算法和模型深刻的理解很少是从多读几遍教科书来的，大多数时候动手具体做过一个项目才知道里面有哪些坑哪些技巧哪些妥协。再有一点很重要的就是要接地气：任何时候都要清楚自己的优化目标是什么，这个优化目标和现实的需求是否匹配，现在做的事情和这个优化目标有没有关系。正如开篇提到的，AlphaGo的学习目标就是最大化赢的概率，那么一切模型、算法、方法论都服务于这个目标。在触宝，我们特别欢迎自己动手做过一些大数据或人工智能相关的项目，并且能把这之中的痛点、难点、方法、结果以及对结果的解释等能够复盘得很全面的人才。因为这样的人是真正去带着思考做事情的，这样获得的经验是很宝贵的。

Q. AlphaGo的成功，究竟对于人工智能的研究象征意义更大还是实际意义更大？如果是实际意义的话，那么到底体现在哪方面？

A. 我认为对人工智能研究来说是一个具有很大实际意义的象征性意义。为什么这么说呢？其实AlphaGo所使用的模型和算法是早已成熟的，DeepMind团队在一个合适的时间把这些算法通过精妙的设计整合起来去完成下围棋这样一个非常具体的、有明确约束的任务。从这个角度看，AlphaGo的“成功”（击败人类最好的围棋选手）实际上只是一个象征意义很大的事情：对老百姓来讲，听说电脑能把世界上最厉害的围棋选手杀到“输得没有脾气“，应该说是很震撼的。那么正因为这么大的一个象征意义，也给人工智能研究带来了很大的实际意义：社会的眼球被吸引过来了，资源也就汇集过来了，DeepMind团队功不可没。实际上，人工智能早已在方方面面抑或是潜移默化、抑或是大张旗鼓地改变着人们的生活方式。例如在新闻资讯APP中看新闻时候的个性化推荐、家居中的智能生活管家、越来越方便贴心的虚拟理财投资助理等。在硅谷，大到Google, Facebook这样的公司，小到2、3个人的创业公司，都在努力通过人工智能改变世界。走在硅谷的街道上，经常能看到各个公司的自动驾驶汽车规规矩矩地在身旁停下来等红灯。所以我们正在一个人工智能快速形态化我们的生活的年代，AlphaGo的成功是这股浪潮中很耀眼的一个闪光点。

最新文章