出门问问李志飞：过去七十年，人工智能经历了什么？

「最近有什么好看的电影？」「为您推荐以下热映影片」

你可能对这样的 Siri 或 Google Now 模式倍感熟悉，看着推荐自己找片、选座、付款。但出门问问的李志飞觉得这样太累，他在 GIF2016 上 demo 了最新测试产品「魔法小问」，想让你用轻松聊天完成这一过程。所以当你接上文回答：

「唐人街探案」「哪里看？」「家附近」「什么时间看？」语音识别准确，对话进行流畅，体验很棒，鼓掌。

直到它把你说的「九点」听成了「酒店」，提示「出现异常」。李志飞化身客服，当场在后台打出「到底是几点啊啊啊啊啊啊」。

虽然这个客服有点凶，但当你明确「九点」后他就会消失了，魔法小问会接着订座、生成订单，通过李志飞客服的确认后再让你付款。在小问身上，人工智能和客服相互配合，说好的「机器代替人」不见了。

思路改变的背后是什么？出门问问 &Ticwatch 创始人李志飞，想和你谈谈对人工智能的过去与未来。

以下内容根据 GIF2016 极客公园创新大会年度商业变量论坛出门问问 Ticwatch创始人&CEO 李志飞的演讲整理而成。

一千人眼中的一千种人工智能？

「人工智能」的概念，最早可以追溯到 1950 年的计算机发明，或是阿兰图灵早期文章《计算机器与智能》（Computing Machinery and Intelligence）。1956 年的美国达特茅斯会议上，才真正创建人工智能（Artificial Intelligence，AI）这个词，希望某天机器能模拟人行为，帮助我们做事。

工程师、科学家、政府、媒体记者，还有未来学家和科幻学家，每个人都在谈论人工智能，涉及无人驾驶、Google Glass、LSTM、Siri 各种名词，一片混沌。其实，这些词代表了人工智能的几个维度：

第一个是产品。比如机器人、无人驾驶车、Google Glass、Siri，是创业者、媒体、政府站在AI外看到的产品和服务。

第二个是技术。比如语音识别、自然语言处理、计算机视觉，是真正以 AI 为核心的公司会谈到具体的技术，也是机器人这些产品背后的支撑。

第三个是模型和算法。比如神经网络、深度学习、状态空间搜索优化，以及 LSTM、CTC 等这些非科学家很难接触的，都需要工程师或科学家每天思索、写代码，才会形成技术。

七十年，AI 的过去与未来

如果抛开科学或算法，更多地从应用的角度去思考，根据时间点我将其分为三个阶段，1945 - 2005 的 AI 1.0，2006 - 2015 年的 AI 2.0，以及今年开始到未来五至十年的 AI 3.0。

AI 1.0：曲折反复、螺旋式上升

1945 - 2005 的 AI 1.0 是基础理论、基础学科的建立时期，计算机科学家、统计学家们从实验室里梳理出的理论算法，逐渐建立了语音识别、自然语言处理、计算机视觉这些具体学科，期间形成了许多学派。

仿生派认为，如果机器能模拟人的行为，计算机行为必须向人类学习，尽力理解人如何学习和理解语言，用计算机模拟人的工作过程。

逻辑派则是围绕计算机本身的一派，基于对计算机的深刻了解，计算机学家们从原理看，如何实现人工智能服务。

还有一派不太学究的称为实干派或行动派，不是基于某些原则，而是把数据放进去测。例如语音识别，只要有模型最后能够识别，他们不关心过程同人类语言识别过程是否一样。

最开始定义人工智能概念时，那些最伟大的科学家都非常乐观，高科技大多由美国军方高级研究院支持，认为未来几年就可以造出和人一样的机器，代替士兵投入战场。但摸索五六年，他们发现最简单的语音识别（比如数字识别）都不能做到，这时他们开始悲观，项目也都停了。但是研究人工智能是计算机和科学家的梦想，所以即使没钱很多人也不停尝试，会突然找到其他方面的应用。

AI 1.0 工业界也有一些「形象工程」，比如深蓝战胜国际象棋世界冠军、IBM 的 Watson 人工智能和 ViaVoice 语音输入，系统没有得到大规模应用，更多是媒体谈论，普通人没有真正感受到用处。

AI 2.0：从 Google Translate 开始面向消费市场

2006 年谷歌翻译正式上线，预示着 AI 2.0 的开端。它提供了90 种语言翻译，90*90 的 8100 个语言对，每天 2 亿人同时使用，10 亿个句子被机器自动翻译。这是 AI 发展史上，第一个得到全世界高频使用的系统，人工智能技术终于开始面向消费者。

为什么几十年没有得到发展的 AI 技术，谷歌却能推出这个系统并得到大规模普及？一方面，谷歌是全球化的互联网公司，用户对信息全球化的需求巨大，谷歌翻译是很有市场的。另一方面，谷歌在数据、算法和基础设施上的架构非常合理。它可以去网上抓 100 万或 1000 万个句子对，当作机器训练的语料，云计算结构等基础设施也能负荷这么大的数据处理量。

谷歌崇尚的是「一定要做出产品」，不是学校里做成实验就火速发论文，跟同行侃侃而谈。在语言识别里，一帮既是工程师又是科学家的人，天天在想如何把它做成产品，实现大规模化、高准确率，所以谷歌第一个把语言识别变成 to C 产品就不足为奇了。

过去两三年，深度学习得到重新应用并且与大数据结合，语音识别和机器翻译得到突破，出现了各种移动端产品。所以 AI 1.0 到 2.0的发展，是从军用到民用，从学术界到谷歌这类公司主导。以前产品大多 to B，未来大规模的一定是 to C。

有时，普通用户会觉得计算机怎么这么笨？比如你说「我想静静」，它会问你静静是谁。但计算机能够做的，把识别过程非常机械地抽象出来，当知道第一步、第二步、第三步干什么，它就会做得很好。比如促销卖东西的各种方式，给出每种大概的收益，计算机擅长的是组合各种促销方式，给出最优解。但是人类的直觉、创造力、情感，是无法用计算机建模的，这也是它为什么「笨」的原因。

AI 3.0：从软件到硬件，从信息到服务

从工程师或者现实的创业者去看，未来可能有两大趋势：一个是从软件到硬件，一个是从信息到服务。

过去早期人工智能硬件载体主要是 PC，2010 年后的移动时代，我们更多使用起了手机。未来我们会有各种各样的新硬件，比如可穿戴、VR、无人驾驶、智能家居。它首先一定是移动性的，可以随身携带或者自己移动。

因此，未来 AI 技术的发展也会大不相同。现在的识别是根据声音，但未来会从单一到综合。当我戴着头盔说「不要」，手也摆一下，通过视觉、声音等的识别会更加精准。此外，它提供的服务是多维度的，过去的 Siri 是软件服务，现在集成到硬件载体，是综合手势、声音等各种，还能移动。过去，人跟机器或者跟物理世界沟通现在由于机器人、VR、无人驾驶的存在，机器要对物理世界建模与之交互，机械可以帮人类主动做更多事情，这是未来比较大的技术趋势。

另外，你会希望不只找到信息，而是直接完成任务。比如以前用 Siri 会说「附近有什么咖啡馆？」，现在则是「能不能给我送一杯咖啡？」查飞机票只是第一步，还可以直接帮忙预订。但是实现上也有很多困难，这也就是为什么 Siri 现在不能直接支付，因为后续涉及很多复杂的处理。

人机混合：我们正在做的尝试

实现人工智能的方式往往是两个极端：要么纯人工，要么纯机器。人工的问题是，实时服务无法 24 小时在线，态度非标准，响应速度慢，但人比较聪明可以处理复杂情况。计算机可以全天在线，快速响应，但不够聪明。所以未来是中间的模式——「Human in the loop」。

人机混合服务在过去也有很多，比如淘宝客服或电话客服系统。但不一样的是，未来人的因素越来越少，机器主导智能助理，人很悠闲，但是用户反而感觉效率高、速度快。机器需要判断对决策是否有信心，如果能够完成，客服便不会参与。

实际上，用户需求非常多，不是每个客服都能处理所有情况，涉及到需求匹配客服，算法非常复杂。过去的 AI 不太希望有人去参与，但现在，我们必须承认，纯粹靠机器，AI 是不可能百分之百准确的。只有机器跟人混合的计算，才有可能给用户提供合理的服务，魔法小问就是我们的尝试。

作为 AI 的创业公司，我们的实现路径也与大趋势类似。早期的我们花很多时间，建立诸多人工智能的技术，语音识别、自然语言处理、智能推荐，现在我们依然花很多时间迭代，更尝试新的语音搜索场景，做软硬结合的产品。比如微信、Google Glass、智能手表，这些都是我们接触用户甚至产生现金流的测试。