出门问问李志飞：一条「非典型」的 AI 探索之路

以下内容根据出门问问创始人& CEO 李志飞在极客公园 2016 奇点 · 创新者峰会上的演讲整理而成。更多相关信息请关注：singularity.geekpark.net。

大家都知道人跟动物有很大的区别，其中最为重要的一点就是我们能够用非常复杂的语言来交流、能阐述一个极具创造性的 idea。所以大家不要觉得语音识别距离人工智能很遥远，这是首先我想说的。

我博士毕业以后去了谷歌翻译，做的是跟自然语言相关的工作。当时我们主要是开发各种各样的算法以提升不同语言之间的自动翻译质量，以前面向的是全世界 80 多种语言，现在可能是 100 多种语言的翻译。其实如果我们能够把翻译的问题解决，可能很多人工智能的问题也都迎刃而解了。

2012 年 10 月份我在中国创立了出门问问公司，我们已经做了三年半，这是一个非常曲折的过程。在过去十几年，我一直从事人工智能的工作。我的经历是从非常偏学术，慢慢转变到参加一些大会来跟大家交流——以前我就是每天写论文，交流的话最多也就是 50 个人，但他们都是全世界最顶级的机器翻译或者语音识别领域的专家。后来到谷歌翻译，逐渐接触更多面向消费者的产品，最后才回到中国来创立了「出门问问」这样一家公司。

过去出门问问从做语言搜索，做操作系统，再到现在做软硬结合的工作。大家也可以看到我个人的轨迹，就是希望能够把这些非常「高大上」，非常遥远、非常科研性质的技术逐渐推广到实际的产品中去。

奇点理论：哪些是科幻？哪些是现实?

在过去的几年，我觉得 AI 是一个非常让人激动的领域。为什么？大家每天都会看到各种各样跟 AI 相关的新闻，比如无人机、VR、自动驾驶等。我们也经常看到一些很「恐怖」的视频，例如一个机器人可以自己跑步，你踢它一脚倒下了，自己还能爬起来。很多人都开始讨论 AI，参加很多跟 AI 相关的一些会议，这确实是一个火热的话题。

屏幕快照 2016-07-16 上午10.18.02.png

然后这个时候就会有一个论调说：未来我们的 AI 到底会怎么样发展？包括今天极客公园大会的名字都叫「奇点大会」。我想大家可能都比我更了解「奇点」理论——在 2020 年机器智能可能会跟人的智能差不多。而 2045 年的时候，机器智能可能超越人的智能，最后甚至是机器把人类消灭掉，这就是很多人所理解的奇点。

因此，过去很多场合一说到「奇点」有些人会觉得这是「骗子理论」。但是今天我想稍微从另一个角度去讨论一下奇点。到底它哪些东西是科幻或者说是未来学家眼里的东西，哪些是现在可以真正实现的东西？我举一两个例子。

比如这样一个观点：未来人的智能跟机器的智能将深度结合起来。我认为这是非常靠谱的一个说法。大家可以想象，以前我们的手表可能就是看一下时间，或者作为一个装饰品。但是现在智能手表已经快要成为你身体的一部分——它知道你心律，知道你每天跑了多少步，可以跟它实现各种各样的语音交互。

手机已经成为我们「不可分割」的一部分，如果做一个很残酷的调查说：「你愿意放弃你的手机还是放弃你的右手？」我想很多人都很有可能会选择「放弃右手」。当然，可能有一些宅男可能会有另外不一样的选择……未来身体里面就可以集成了很多芯片。比如：你的手腕上就有一个芯片，它储存着你的 ID 信息，不用带身份证、信用卡了。

屏幕快照 2016-07-16 上午10.16.24.png

PPT 图中这个「天线宝宝」，利用这个辅助设备帮助他把声音转化为颜色，因为他是色盲。现在我们接触到的这些例子，可能都是说因为你有残障，因为你本身生理上有一些残缺才会使用。但是未来大家可以想像一下，你为什么真的一定要生物的腿呢？可能装一个真正的机械腿，也不是不可能的。当然，我们首先要解决「充电」的问题，要不然当你想跑的时候没有电了那就麻烦了。

有很多机器会出现在我们身上，过去很多机器都只是我们外延的工具，但是现在这些机械的东西可能会植入到我们的身体里面，成为我们身体的一部分。可能未来不会有一个人是 100% 全生物的，可能就是半人半机器，我觉得这个是有可能发生的。

另外一个论调就是说机器的智能，是不是可以达到人的智能水平或者比人还更高？我个人觉得是不太现实的。我反而是怀着这样一种态度：我去相信这个东西，然后要去思考。如果说我们要造一个机器，然后有人一样的智能或超越人的智能，我们应该怎样做呢？

首先，我们对于自己的语言、视觉、声音有一定的了解。了解以后，就去建立一个计算机模型，然后再去计算并把它执行出来。而所有的计算都是需要大量的数据，这里面就需要传感器，比如语音识别需要麦克风。首先你需要一个传感器采集信号。然后你要把这个信号数字化，变成语音。从声音里面来看，当麦克风录音的时候，其实很多声音跟语音识别本身是没有关系的，这个时候就需要算法做采样，要把噪音去掉。

屏幕快照 2016-07-16 上午10.16.07.png

当机器要去模拟人的行为时就需要经历这样的步骤。后面当然还有算法，有深度学习，利用各种各样的工具去帮助你把语音识别这个问题去解决。所以我认为这个基本上现有人工智能都要遵循的一种规律，「机器人自己学习」其实这是非常难的一件事情。

但是我们再来看一下，人类怎么去探索世界，或者人类是怎么去获得「智能」的？大家想一想，你为什么现在聪明了。或者你跟五年前的自己相比，是不是变得更聪明了？这里面很重要的一点，就是你在跟物理世界不停地交互。首先是感知世界，用你的眼睛、耳朵、身体去感知这个世界，然后你可能会有一些感受，也可以跟人进行交流，可以读书、读微信的文章、学习等。

这个我觉得是第一步。你有了这些信息以后，通过感知世界，你可能会产生一些疑问。这个时候你就去思考、理解，自己在大脑里面去加工。根据你过去的经验，根据你对另一个领域的认识去类比、思考这个东西的逻辑是不是对的。到最后你才会说，你创造了自己的 idea 并表达出来，去跟别人协作。比如：今天极客公园的大会，我觉得就是很多人协作出来的成果。怎么样保证每一个嘉宾按时上台，PPT 各方面都很好地执行？所有的这些东西，可能是机器今天都不具备的。

出门问问的 AI 探索之路

AI 的商业化或者产品化，我认为有几种思路：类似于谷歌这样的大公司，积累了大量的用户，拥有大量好产品。所以它做的思路是把 AI 的算法放到地图、邮箱等具体的产品中，提升它们竞争力。

另外大家想一想，有哪一个语音搜索的产品是用的第三方，然后非常成功的？没有。因为这需要跟产品深度集成，这个时候如果只是自己做一个 API，但不去关心用户，不关心产品本身怎么样，不关心 AI 本身怎么样，我觉得确实是比较难做的。这是第二种方式。第三种方式，则是我们正在做的。

1.C 端产品

出门问问想要自己面对消费者，而不是只去做单一的技术提供 API 给别人，靠着别人把用户量涨起来。我们希望针对特定的场景进行优化，实现综合性的 AI 技术。

一个「完整」的产品同样重要。我不能用 A 的语音识别、B 的视觉识别和 C 的 SLAM 拼凑出来一个产品。我们「全栈式」地研发跟 AI 相关的技术。从语音识别、语义理解、语音搜索，到语音合成、垂直搜索等都是我们在开发的。如果你要做一个「2C」的产品，必须要有自己非常综合的 AI 能力，才能把这个产品做好。

2.纵向产品深度集成

另外是在某一个产品纵向深度优化。比如智能手表从最首先做算法，然后做一个操作系统把这个算法加进去，最后再做自己的硬件——Ticwatch。谷歌在去年要进入中国的时候，它在中国看了一圈发现只有出门问问有这种「端到端」的语音搜索，并在智能手表上做了深度优化的产品。

屏幕快照 2016-07-16 上午10.17.15.png

3.横向品类打通

这个更多我觉得是从商业的角度去思考，因为智能手表的空间可能没有那么大，它也不能把 AI 的价值最大化，所以我们希望能够有更多的品类。我们最近做了一个新的品类——智能后视镜（问问魔镜），它就像为你的普通后视镜加了一个 4G 导航手机，拥有非常便利的交互和强大的功能。

屏幕快照 2016-07-16 上午10.18.20.png

我们从 AI 算法出发去寻找各种各样的场景，覆盖生活的方方面面：智能可穿戴、智能车载、智能家居、机器人等。最后我们把软硬件结合的产品做出来，并希望所有的产品能够连接起来。大家可以想像一下，未来所有的系统都是同一个 AI 框架的时候，你的手腕上、家里面、车里面几个分散的使用场景便能结合起来，这个时候机器对你的了解会更加深刻的，可以做出非常有意思的一些事情。