出门问问李志飞：如何抵达人机交互的「终极自由」｜IF X

「定义下一代人机交互」，这是出门问问给自己定下的使命。这个还等待被定义的抽象标准，是公司创始人兼 CEO 李志飞口中的「具体愿景」。这家创办 7 年的 AI 公司，正在通过不断开拓新赛道，开辟新战场的方式去践行这个愿景。

出门问问 2013 年做中文移动语音搜索引擎，2014 年做智能手表操作系统，2015 年做智能手表，2016 年做车载产品，2017 年做智能音箱，2018 年开始 to B，还做了智能耳机。从扎根国内到进军海外，从 to C 到 to B，从软件到硬件再到定制全栈式 AI 解决方案，可以说，李志飞将「该插的旗都先插好了」。

以语音交互和软硬结合为核心，再以声音信号处理、对话管理、智能推荐和语音合成等 AI 语音交互技术建立壁垒，出门问问一直有新鲜故事可讲。

在 GeekPark IF X 的会场上，李志飞说到，「科技带来了更高的生产力，同时带来了相应的不自由。」而要个人设备层面的人机交互「终极自由」，他说那种自由是「自由得让你忘记这个是什么设备、在哪里，你人到哪里智能就跟到哪里。」让设备更小型化，交互更多模态，虚拟助理更智能且跨场景的能力更强，这是出门问问正在推进的事情。

「刚开始不知道什么是下一代最优的人机交互，好，那我就深度优先先做个完整的、简单的人机交互出来，是不是下一代最优我不知道，如果发现不够好，就改变某些节点换一条路径。」李志飞在接受甲子光年的采访时说道，「如果你连上海在哪都不知道，你首先要摸这个地图。」

触摸「定义下一代人机交互」这个愿景，这家创业公司不断摸索，不断试错，也正在不断变得「全能」。

以下内容为出门问问创始人兼 CEO 李志飞在 GeekPark IF X 中的演讲实录，经极客公园编辑整理：

大家上午好！今天的主题是《通往人机交互「终极自由」的 AI 之路》，首先，说到「终极自由」，这是一个特别复杂的问题，很难去定义什么叫「终极自由」，而且很容易产生很多的歧义。

为什么要讲这个东西？作为一个工程师，我一直都在思考科技和自由的关系到底是什么。工程师特别想通过自己的科技去改变世界，让这个世界变得自由，让人的效率得到提升，但实际中科技有的时候并不一定让人自由。

所以，我想从一个工程师的角度，去阐述科技到底怎么样给人带来自由。前面说到「终极自由」是一个特别广泛的主题，我主要是讲人机交互，更具体一点是个人设备的人机交互，因为人机交互可以有很多，像刚刚讲的自动驾驶也是人跟机器的交互，但是他更多是一个车的场景，而不是一个个人的设备。

所以，我今天想讲在个人设备上人跟机器的交互方式的变更，以及怎么样让人变得更加的自由。大家可能都看过这个图，人机交互中个人的设备是不是让我们变得更加自由？在我看来其实是不一定的，人类通过这么多年好不容易站立起来，但是因为有了手机我们又重新低下了头，这是一个非常可悲的事情。

而且，大家可能都不知不觉你都不认为这是一个问题，所以我现在想做一个调查：

第一，你用手机的时间是多长？

第二，你每天解锁手机的次数是多少？

我看到了一个数据，觉得很惊奇，我看了一下自己的手机（iPhone 上面有一个「屏幕使用时间」），就是很多人的使用时间超过 7 个小时，我记得我的是 7.5 个小时。每一天的解锁次数超过了 70 次，也是很多的，我应该是 80 多次。

这就是一个现状，而且很多人都意识不到这是一个现象或者是一个结果，带来的就是所谓的「手机病」。当你的手机不在你的身边你就焦虑，比如说现在我的手机就不在我的身边，我哪怕是在这种场景下，我还是下意识去摸一下我的手机在什么地方。

另外就是眼睛的问题，比如说我早晨起来真的会觉得特别干，甚至手的变形，当然还有更多的毛病，比如说颈椎，这就是一个结果，而且越来越多的人存在这个问题。这是一个很重要的原因，就是因为今天手机的这种设备的形态，可能就不是最优的形态，使得我们使用时长特别的长，带来的后果也特别严重。

刚刚是设备形态，另外是交互方式，如果说这个手机你永远放在兜里面，你不用 70 次拿出来解锁，然后花 5、6 个小时去跟它进行交互，可能也不是问题。但是，很不幸，由于我们今天跟手机交互的方式主要是按键跟触摸，这使得我们一定程度被手机绑架。

另外，虽然是叫智能手机，但是智能是非常有限的，所以智能手机不智能，比如说跟人机交互或者是对话特别相关的对话做不好，没有上下文，也不能理解你说的是什么话，甚至也不能够主动给你提醒、推荐。你每一次都需要自己拿手机，然后不停地看，生怕漏了什么东西。

如果我们的智能足够智能，在你有需要的时候给你一个通知或者振动，你去用一下，就不用一直盯着这个屏幕，可能也会避免刚才说的这些问题。

所以，科技虽然带来了更高的生产力，同时也带来很多不自由，那什么是「终极自由」？这是一个特别复杂的问题，而且作为科技来说，当我们想像未来的时候是特别危险的，或者特别容易打自己脸的，所以我不想说 10 年以后会怎么样，我更多讲的是未来这 10 年之内有可能怎样，因为我不是一个未来学家，也不是一个科幻学家，所以我更多是说未来 5-10 年里面人机交互方式怎么样变化，能够给大家带来更多的自由。

整个人机交互设备的大变化是越来越小型、越来越便携，比如耳机、智能手表，或者未来的眼镜，它像你的墨镜一样轻，戴在眼睛前面就有屏幕，甚至是你的 ID，比如在你体内植入一个芯片，所有设备可能都是屏幕，只有人一靠近，可能这个设备也不是你的，但是因为是统一的 ID，你一进去，所有的 app、内容都是跟你相关的，而不是别人的。

这个也不是一个特别难以想像的事情，无论是你的邮件，还是你的微信，只要是用你登录的，一进去就是你的，其实你没必要有一个专有的设备、一定要跟着你的设备。

所以，未来的这种设备一定是小型化、便携化的，而且到处都是设备，但是你的 ID 跟你相绑定。

交互方式现在更主要是屏幕、键盘，未来肯定是多模态，无论是语音、手势，还是视觉，甚至是你要说是还是不是，用脑电波来提取信息都有可能，这是交互方式上的。

还有一个是背后的智能，跟人一样，你可以想成我的手、脚、嘴巴，这些是交互的设备，但是视觉、声音是交互的方式，所有的交互背后都需要有一个大脑思考，这就是我们所说的智能。

未来是一个虚拟个人助理，它就是你的大脑，能够无处不在，呼之即来，挥之即去，而且它是非常个性化的体验，未来可能没有你个人的设备，只有你自己的 ID，人一到这里，可能前面的设备就成为你的设备了，别的东西都不需要了，所以这是我们想像的一个未来。

接下来我想放一个视频，我特别喜欢这个视频，这是 3 年前拍的，我觉得它带有一点感性，也代表一种有现实性的对未来的想象。

刚才提到这个视频有一点感性，不太像一个工程师能够想像出来的东西，但是我觉得它可能代表了感性与理性之间的平衡，未来云端的虚拟个人助理就是无处不在，呼之即来，挥之即去。

今天的现状是人被手机绑架了，未来有可能是什么样的状态，这个中间要解决什么问题，这些问题是不是能解决。大家可能看了觉得特别具体，比如说功耗的问题，这个确实是过去几年没有看到特别大变革的事情，而今天所有的设备为什么做成这样，手机、耳机、手表为什么是这个样子？因为大、不方便，而且每天要充电，特别大的问题就是续航，如果电池有革命性的变革，整个的设备形态都会有非常革命性的变革。

另外，讲到了交互的方式，我们无论是讲到自然语言理解，还是未来 VR、AR 显示的方式，今天都需要很多技术的突破。自然语音理解可能大家都知道难度，因为大家都用到各种各样的语音助手，智能本身我觉得也是非常难的一件事情。

是不是说今天不自由？另外是我们想象的终极自由，这里面又有这么多技术上的挑战，我们是不是就只能等？比如说等个 5 年、10 年，等到电池变革了我们再去做事情，其实不是的，任何的科技都是连续性的，不是突破性的，从一个长周期来看，可能都是连续性的。

而我们作为一个创业公司，到底去做什么让人机交互的方式越来越逼近我们想象的？接下来有几个例子来看一下出门问问的一些产品形态，到底是怎么样逼近我们刚刚说的「终极自由」。

第一，智能手表和智能的无线耳机，可能 5 年前我们讲这个的时候，大家第一反应就是 Apple Watch 没什么用，但是如果从 5 年的周期来看，Apple Watch 变得非常好了，至少比以前好了很多。

第二，用户的渗透率比以前高了。

而智能无线耳机，这也是一个产品，很多人刚开始的时候都觉得这个特别的不靠谱，但是今天来看 AirPods 已经成为了一个普适性的产品，而且产品的特征就跟前面说的越来越小、便携。

像出门问问自己做过的一个智能无线耳机，应该是两年前在极客公园发布过，我们今年又发布了二代的无线耳机，体积比一代小了整整 45%。所以，当你用两年的周期去看，其实这个趋势特别明显。

在我看来，到底什么是接近「终极自由」？在未来两三年能够实现的新的手机以外的计算平台，能部分的代替手机使用形态的，我认为是智能手表跟智能无线耳机的结合，尤其是智能手表本身是自己可以联网，不需要通过手机联网的。

接下来我想给大家看一个视频，当一个 4G 的智能手表再加上一个智能的无线耳机，当它们结合起来，这个耳机通过蓝牙连接到手表，手表自己直接通过 4G 连接到互联网上，是什么样的产品形态。

无线耳机连接到手表，手表通过 4G 连接到网上，这个可以干很多事情，里面没有讲到的是各种多模态的交互，比如说当人打电话进来，你只用点两下头就可以接电话了，摇两下头就拒接电话了，包括语音的唤醒词，比如说你放音乐的时候，不用说「嗨，小问」，你直接说「下一首」，它就开始下一首了，说「停止播放」它就停了，说「开始播放」它就播放了。包括讲到的更复杂的语音交互，比如说秘书的功能。

当一个智能无线耳机和手表连接以后，在这种情况下，当你出去跑步的时候，当你到楼下散步 30 分钟的时候，你其实是不需要带手机的，因为电话号码跟你的手机一样，听音乐、打电话、发消息、听消息都会通过语音交互进行。

这种交互形态已经是多模态的了，耳机侧面的触摸区域，我们可以调音量，直接往上划一下就可以调了，往下划一下就是减小音量，刚才讲的是姿态、手势，还包括一些语音的复杂功能。所以，这个产品今天看起来就是一个硬件，但其实可能就是逼近「终极自由」的终极形态。

另外我们所有的这些设备，无论是手机、手表，还是耳机、车载设备、音箱设备，在过去都是独立的，比如当你在音箱上听了一首歌，听到一半，你现在要出去，到了车里面，它就立马知道你在家里听的这首歌，继续放这首歌。

出门问问在过去几年做了很多探索，无论是音箱、车载、手表，还是耳机，我们最后都希望通过同一个虚拟个人助理，使得这些设备体验可以延续，而且这个不是一个描述性的东西，我们在一些实际的车里面（江淮大众思皓）操控家里的空调，在路上发地址给车里面，然后一上车，点一下导航就可以走了，不需要到车里再开始做语音的交互。

所以，这也是一种产品形态，自由得让你忘记这个是什么设备、在哪里，而应该是你人到哪里智能就跟到哪里。

下一个产品某种程度上也是能够增加大家自由的，比如说我有很多骚扰电话、陌生电话，有时候我不想接，但是我又怕真的接了以后是投资人要投钱给我，或者说客户要买东西、媒体要报道我们，所以这个时候特别纠结。

后来我们做了一个电话助手产品，只用关注我们的小问电话助手公众号，进行呼叫转移，当别人打电话进来的时候，如果是陌生号码，我就不接，机器人自己开始接，或者说手机不在你旁边，你根本就没接，就是机器人接。

这个极大增大了我的幸福感，降低对手机的焦虑感，因为再怎么样有一个机器人帮我接了，接完以后会给我发一个微信，我回去看一下那个微信，听一下到底在讲什么就行了。当然我最后发现没有投资人、媒体、客户，绝大部分都是骚扰电话。

接下来我想给大家放两个视频，这是完全真实的，一个是我的机器人，另外一个是我们工程总监的机器人接电话的记录，这里面有一个特点，给每一个人都产生了一个个性化的 TTS（Text To Speech，即「从文本到语音」），就是我录三五分钟声音，机器会模仿我的声音，把文字输进去，它就发出我的这种声音，大家可以听一下。

第一个骚扰我的人他知道接的是机器人，但是他还骚扰得如此理直气壮，第二个是那个人打给了我们的同事，但是这个机器人一直在告诉他说，不是自己，但是人家说你骗我干嘛，你就是你自己。

所以，人跟机器、机器跟人已经很难分清楚了，但是我知道确实是能够大幅度降低对手机的依赖，而且让我们更加自由。

最后总结一下，终极自由我们不是不能做事情，而是我们可以比较现实地去看哪一些东西可以做，所以无非就是做更小型、更便携的设备，更多模态的交互方式，而且是更加智能的虚拟个人助理。

谢谢大家！

图片来源：VPHOTO

最新文章