出门问问李志飞:虚拟个人助理离我们还有多远?

摘要

过去几年,互联网公司纷纷推出了自有的语音服务,但它们的使用场景和承载设备在当下还比较有限,距离我们期待中的 VPA 形态还有不小的距离。

提起虚拟个人助理(Virtual Personal Assistant,简称 VPA),估计大多数人很难产生一个非常直观的印象,但若说到科幻电影《她》里面那个声音性感的虚拟人物「萨曼莎」,相信大家都是「心神向往」的。

Siri、Alexa、Cortana、Google Assistant ……过去几年,互联网公司纷纷推出了自有的语音服务,试图「教育」我们利用语音来解决很多问题。但现实情况是,它们的使用场景和承载设备在当下还比较有限,距离我们期待中的 VPA 形态还有不小的距离。

对于一直践行让 AI 技术落地更多智能设备的初创公司出门问问,对于 VPA 未来的发展有什么思考呢?以下内容根据出门问问(Mobvoi)创始人 & CEO 李志飞在极客公园创新大会(GIF 2017)的演讲内容整理而成。


大家好,我是出门问问的李志飞,今天很高兴跟大家跟大家一起做个分享。其实前面两个演讲(李飞飞、王小川)我都仔细听了一下,其实挺有感慨的,因为他们分享的内容都跟我有很大的关系。

14.jpeg

其实从 2012 年到今天,大家发现有一个很大的变化:由于深度神经网络的应用,翻译的质量得到了大规模提升。很多时候技术是一个螺旋式上升的过程,所以当你遇到困难的时候,再耐心一点,很有可能就会有一些突破。

我自己由于从科研到谷歌翻译再到现在自己创业,今天主要想跟大家分享的是更接近现实的一些东西——出门问问在过去的四年都做了什么尝试?作为一个小小的创业公司,到底我们能够做一些什么样的事情,我们对整个行业有一些什么样的想法。

虚拟个人助理的现实问题

今天主要跟大家分享的话题,就是虚拟个人助理。

关于虚拟个人助理,大家其实已经讨论了很多年,包括大家去看很多自然语言处理的教科书,可能前几页就会讲到一个助理可以跟你对话,可以帮你完成很多工作,它基本上随时都在等待为你做一些事情。甚至有的像现在电影里面描述的,它是一个非常性感,甚至能够跟你产生情感的一个助理。

虚拟个人助理不是一个新的概念,所以很多人都对它有很高的期待。但是如果大家去看现实,其实还是有很多的问题,首先这个对话是非常难做的事情,基本上还是一种听不太懂、看不太懂的状态。比如说「Siri,Call me an ambulance」,Siri 可能理解为以后可以称呼你为「救护车」。

过去几十年人工智能遇到的最核心的问题,到现在仍然没有解决。自然语言理解背后的系统不具备简单的常识,也没有一些复杂的推理,以至于我们对这个世界的知识没有很好的表述方法。今天计算机系统还无法像人类一样,能够对世界知识有一个比较好的表述方式——基于现有的知识,我们能够去理解这个世界,并自己推理出新的知识。但今天的自然语言理解,坦白地讲离这一步还非常远。

机器终归是机器,我们想象中它能够颠覆人类或者是消灭人类,甚至跟我们产生情感,其实不管从真正的工程或到最后的代码层面上去看都是比较难实现的。因为机器跟人不一样,它没有直觉,也没有意识,更别说后面的情感或者是创意的一些想法。

15.jpeg

其实就算是技术已经做到非常完美,前面两点都解决了,很多时候技术都是在跟人的习惯在做对抗,但习惯很难去改变的。比如说语音交互,当你习惯了用一个屏幕的方式,改变语言交互的形式很多人不一定会适应。所以就算技术问题解决了以后,实用性还是非常差。

上面是现在遇到的一些问题,那么虚拟个人助理的实用化还依赖于哪些进展?

第一,使用场景。今天我们的使用场景可能更多还是手机,但是前面提到在手机上面,当你习惯了用屏幕,而且 app 做得非常好的情况下,我们是不是真的需要一个语音对话的虚拟个人助理呢?这不是很确定的。

第二,我们需要的助理不是只是用来信息查询。比如说只是问一个天气,你打开 app 很快就能看到,也不需要跟它进行交互,但是可能更需要的是,比如说当我知道天气很冷的时候,它是不是自动能给我调温度,是不是真正能够帮你把这个事情做完,而不只是做事情的查询。

第三,统一的帐号和操作系统管理。虚拟个人助理既然是虚拟的,其实应该跟使用的设备、物理的场景都没有关系,无论你在家里、车里还是拿手机在办公室的时候,都应该有这种普世性。它对你非常了解,帮你做一些事情,但是今天的现状是这些设备都是非常分散的,有没有一个统一的帐户去处理这些事情。

这是关于虚拟个人助理实用性遇到的一些问题。出门问问做的一些事情,就是希望能够在某种程度上去探索、去解决这些问题。接下来在我讲更多细节之前,请我们的产品总监林宜立,做一个关于「多场景语音交互虚拟个人助理的演示」。

虚拟个人助理如何「跨场景」交互?

林宜立:大家好,我叫林宜立,很高兴再次来到极客公园的现场,刚才志气飞介绍了我们公司 AI 的理念和 AI 落地的尝试,我现在有一些小的现场 Demo。

我下面做的几个演示,可能在生活中会经常碰到。比如说某一天起床出门之前,可能你会先戴上自己的智能手表。我手上戴的是我们现在正在卖的 Ticwatch 二代手表,它内置了很多 AI 技术。

比如说你可以很方便地单手查看一些消息,当我手抬起来的时候屏幕就亮了,当我一翻腕消息就出来了,我再翻下来,消息就下去了。这些都是我们后台做的一些姿态识别,希望利用手表自己的传感器创造一些体验上的亮点。

1.jpeg

出门之前你要做什么事儿?你今天可能跟朋友约了要到某个地方喝个咖啡,正常情况可能是拿起手机来搜,有了手表以后这个事儿会变得更简单。在手表上,我们对接了很多第三方的互联网信息,比如说大众点评等,我们可以很方便的对手表说话就能找到想要的吃的。

另外在手表上可以很方便的知道你爱车位置,我这个手表的卡片其实是绑定了出门问问的 ID,它连接的是爱车上的问问魔镜。在任何时候,你可以在手表上查到车停在哪。

7.jpeg

我们刚刚开发的问问魔镜,可以说是一款智能的「车载机器人」,它将普通的后视镜替换掉就可以实现一些更加智能化的功能。假设你上车了,把钥匙打开,问问魔镜就亮起来了。这款产品集成了高德地图、网易音乐等开车场景中非常常用的一些功能。

我们试一下,怎么对它进行一下无手的操作。例如说出「您好问问,帮我导航到西单。」导航信息就显示出来了,你也可以直接打断过程中的 TTS,改变行车路线。

开车过程中还有另外一个需求,就是听歌,这在问问魔镜上也可以很方便地做到。「你好问问,我想听周杰伦的『告白气球』。」如果你不喜欢这个版本,还可以很方便的说下一首。问问魔镜不光帮你搜到了这首歌,还搜到了各个版本的「告白气球」。

上车之后,问问魔镜还可以很方便地连接您的手机,比如说你常用的手机可以跟它提前配对。开车过程中还经常碰到比较尴尬的场景,比如开车时有人给你打电话,往往就会变得手忙脚乱,有了问问魔镜以后,语音说出「接听」就可以,打电话的体验会更加安全便捷。

问问魔镜能把开车过程中导航、听歌、打电话这些体验都变得特别的流畅和自然,当然它还能帮你做更多的事儿。当问问魔镜、Ticwatch 智能手表、智能家居由后台的虚拟助手打通以后,它就能知道你出门后家里的哪些电器忘了关了,这个时候很贴心地给你推一条提醒,提醒家里电器没关、空调没关,而通过语音可以很方便地把它们关闭。

另外,现在北京天气不太好,有时候经常雾霾天。如果你特别希望到家的时候就有比较好的空气,在开车到家前可以说:「你好问问,帮我打开家里的空气净化器。」大家看到现场的空气净化器已经打开了,这是通过后台的虚拟助手实现的。

开车的过程中还有更多智能的场景,未来会在我们的产品中不断地迭代,希望能够帮到大家在驾驶过程中,真正做到「手不用离开向盘,眼睛只关注路面」。

到家了下车后有可能会出去跑个步,这个时手表能帮你去计步。跑步后可能渴了想买水,或者说想坐公交、地铁回家,怎么办?其实现在我们的最新款的问问手表,已经内置了 NFC 近场支付的芯片,也就意味着当你坐公交,坐地铁或者到便利店买咖啡、买水的时候都不用再掏钱包,不用再掏手机了。

3.jpeg

出门问问可能更关注于 AI 怎么样通过结合算法、操作系统、软件、硬件,最终落地到一个端到端的产品中,能够真正让各位在每天的生活中都能用到的产品,我们认为这才是真正好的 AI 体验。也正因为出门问问有了这样端到端的能力,我们逐步的在增加我们硬件的小生态系统,真正的做到 AI 虚拟助手的落地。

下面请回我们的创始人李志飞博士。

出门问问在做的三件事

李志飞:感谢宜立的 Demo,也感谢极客公园的配合。大家可能感觉场景有点多,但其实我们还是希望能够在在不同的环境下有一套 AI 的系统把它联动起来,给你一个更好的服务。我认为出门问问主要做了 3 大事情:

1、语音交互

未来一定是刚才宜立演示的无手、无屏的操作。也就是说当你在开车的时候,不需要用手去触摸,或者用眼睛一定盯着屏幕才能做这个操作。

所以,这里有很多事情,有很多最基本的算法层面的东西,当然更重要的是产品层面的东西。比如刚才宜立演示的智能后视镜,是在车里面有噪音、有背景音乐的情况下,怎么做无手无屏的交互。所以,首先得有麦克风的阵列、降噪的算法。其实,这跟亚马逊的智能音箱是非常类似的技术,能够远场、能够降噪、能够随时打断,这是信号处理的一些结果。

屏幕快照 2017-01-14 上午9.40.47.png

刚才大家看到整个演示,我们都是可以通过热词唤醒,不需要你去按或者点什么按钮。

而且特别重要的一点,刚才我们在播放音乐的时候,或者系统在播报 TTS 的时候,我们也可以打断它,而不是先把音乐关掉,才能换下一首歌,或者换到导航,我觉得这是在语音交互里特别重要的技术,就是在放背景音乐或者系统在放 TTS 的时候,我们还是可以通过语音(你好问问)把它打断。

刚才,宜立演示了直接说热词+命令,包括后面的语音快词。刚才他把地图打开的时候,直接就说 2D 模式、3D 模式、缩小屏幕、避免拥堵,这些就是为了你不需要用很长的对话跟机器进行交流,而是直接下达指令,而且是在有背景噪音,或者它自己在播放 TTS 的时候,就能够直接把这个指令做出来。

屏幕快照 2017-01-14 上午9.41.03.png

除此之外,还有一些对话的形式,刚才他说找餐厅,找到了哪几个,然后可以说第三个、第二个。未来,我们还会有很多围绕对话相关的工作,比如我说导航到国贸的时候,这时就可以跟系统说「目的地附近有什么好吃的」,不需要在说国贸了,而直接说目的地,或者说目的地附近有什么停车场。

包括听音乐也是一样的,当你放了一首歌,直接就可以问,这首歌是谁唱的?它可能会告诉你周杰伦。这时候你就可以问,周杰伦还有什么别的歌,或者他今年多大,他是哪里的歌手,他的生日是哪一天,未来我们都可以围绕一个具体的实体展开对话。

这些是语音交互的未来,围绕无手无屏这个目标去做对话、做打断、做快词,出门问问已经在这里面做了很多尝试。

2、软硬结合

AI 今天为什么一定要软硬结合?就是因为 AI 不是一项非常成熟的技术,这时候如果我们希望通过「积木式」的创新,可能很难做出刚才这种比较整合式的体验。所以,出门问问过去两年多一直在强调要软硬结合,做一个全栈式的产品,因为只有这样才能做比较好的体验。

3、多场景联动

刚才已经演示很多了,怎么在家里控制车里的设备,在手腕上可以把地址发到车里面,这样直接就可以导航。这也就是因为我们自己有自己的硬件产品、OS、AI 算法,使得我们可以非常快的做整合和创新。

所以,回答前面刚才那个问题:虚拟个人助理到底离我们还有多远?答案肯定是还是比较远的,但是如果在两年前我们都不知道怎么到达虚拟个人助理的路径,而今天我们能看到一个更清晰的路径,就是刚才前面讲的几个点,我们是不是能把多个设备、多个帐号连接起来,包括语音的交互是不是能够完全无手化的操作。现在我觉得,我们已经走在一条比较清晰的路上。

但是,未来真正要实现大家想象或期望中的个人助理,我觉得还是有一定的距离。

其实很多人一直都不理解出门问问到底要干嘛——最初做语音交互,后面做硬件,现在又做虚拟个人助理。其实我觉得,出门问问从来都没有变化,我们都是在定义下一代的人机交互,然后实现刚才讲到的虚拟个人助理。

屏幕快照 2017-01-14 上午11.14.49.png

所以,出门问问不是纯粹的语音搜索,也不是纯粹的多个智能硬件。而是说,我们通过结合这些语音交互、智能硬件、多场景,最后形成一个虚拟个人助理,真正在大家的生活中能够无处不在,能够「比你更懂你」。这才是出门问问的最终目标。

我的演讲到此结束,谢谢大家!

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。