手机和音箱都没达到的语音交互高度，被汽车搞定了

「Hi Google」、「Hey Siri」、「小度小度」、「理想同学」……

随便列举几个智能语音的唤醒词，会发现大多雷同。时间久了，总会感到疲倦。

从技术的角度看，这些唤醒词其实是经过「筛选」，是为了保证足够的唤醒率。在技术提升之后，新的唤醒方式出现了，不再执着于加上前缀，而是用多样性或者自定义来实现，自定义的唤醒词开始能够满足用户的个性化需求。

固定的唤醒词已不能满足用户的需求 | Medium

这样还不够。如果想让机器变得像人一样，发展过程中必须摸索怎样的人机交互在流畅的同时，还能保证语音对话不输人人之间交流。换一个角度想，如果一定要对着机器说：「我要 xx……」，可能会很奇怪，加上一个唤醒词会更加合适。但是当场景里只有两个人的时候，这样的唤醒词会显得很多余。

瞄准这样的需求，汽车内这种独特场景下的「语音免唤醒」应运而生。

车内的场景比较单一，不少人将唤醒词视为累赘，并努力将其消除掉，力求保证人机交互的流畅性。但同样有人提出质疑，认为免唤醒在目前阶段还不成熟，它会制造更多的麻烦。

那么，这项功能到底靠不靠谱？

一个伪需求？

不需要所谓的唤醒词，就能够控制车载系统部分功能，是语音免唤醒最大的优势。

用通俗的话讲，只要后台的语音一直保持「在线」状态，就像一位忠诚的朋友安静地在你旁边待着，一旦收到你的命令就立马去执行一样。只不过，你只有说出它能听懂的词才可以。

举个最直观的例子，假如我们要去雍和宫，之前用语音发出指令是这样的：

「你好 xx（唤醒词）」；

「我在」；

「我要去雍和宫」

「好的，已为您规划路线，是否开始导航？」

加上语音免唤醒之后，变成这样：

「我要去雍和宫」

「好的，已为您规划路线，是否开始导航？」

由于减少了唤醒这一步骤，语音交互效率能够有效提升。这也是为什么大家都希望上线语音免唤醒功能的原因。相比最开始的做法，直接说出指令的感觉要好太多，同时也避免了人机交互过程中的生硬。

语音免唤醒的体验要比说唤醒词好很多 | SoundHound

「所见即所说。」一位业内人士对免唤醒功能给予了高度评价。

可以确定的一点是，语音免唤醒在技术上可以实现，但做到极致的用户体验是非常有难度的。核心问题就是对误报的控制，在保证低误报情况下做到高精度免唤醒是难点。

据极客公园（ID：geekpark）了解，长安福特 Active，哈弗 H6、新宝骏 RM-5、理想 ONE、吉利博越等车型均已搭载免唤醒功能，但各家其中的技术方案并不完全相同。在传统汽车向智能汽车转型的过渡时期，更多互联网相关的新科技也逐渐搭载在车上。因此，这也成为了互联网企业、科技公司，或者技术供应商们争夺全新市场的绝佳机会。

哈弗 H6 已搭载语音免唤醒功能 | 哈弗官网

即便有车型搭载、以及众多供应商支持这项功能，但不可否认的是，这仍然是一项较小众的功能。有业内人士向极客公园表示，车企之所以不搭载语音免唤醒，是担心用户在使用过程中触发误唤醒，导致体验变差，甚至会认为是「伪需求」。

「像 Siri 一样，有时候不小心就会唤醒 Siri 出来，其实让操作更加麻烦，如果在车内，误唤醒可能会有安全隐患。」上述人士说到，车企没有用上语音免唤醒功能，主要是出于安全方面的考虑。

另一方面，由于语音免唤醒需要车机在后台时刻保持在线的状态，如果在车内两人聊天时误唤醒，导致导航偏离目的地，对用户体验也是很大的伤害。

使用语音免唤醒功能的厂商，对此则是另一番解释。

「目前语音免唤醒瞄准的是高频操作来设计，恰恰是对语音交互效率非常大的提升，」上海博泰终端软件中心执行总监王小华向极客公园表示，在车内使用比较多的语音交互是导航、娱乐这样的诉求，如果经常使用的话，免唤醒就是一语中的，比需要唤醒词的两步操作体验要好很多。上海博泰成立于 2009 年，在车联网领域研究多年。最近，博泰推出了「随身车联网」的概念，借助手机的算力，但应用都在车机上操作，让用户的手机变成一款车机。与车企深入合作的众多功能中，语音免唤醒也算一个不小的亮点。

博泰「随身车联网」的语音免唤醒是个亮点功能 | 极客公园拍摄

王小华认为，之所以许多车企没有使用语音免唤醒功能，是因为大家对于体验的理解不同。比如误唤醒率的指标，车企对于语音功能的偏好上都不一样。而博泰的出发点在于，怎样找到车内交互最高效率和误唤醒之间的平衡点。

另外，虽然纯技术上没有难点，但从技术到产品的过程中，还是暗藏了不少的「坑」。怎样设计唤醒词、哪些场景需要用到哪些技术去匹配，或者对于未来产品的考虑，都能对体验产生影响。

鉴于人类在互相沟通过程中不会重复喊对方（相当于唤醒词），所以免唤醒，直接说出指令是更符合人们自然交互的，相信这个功能最终也会推广开来，而不是变成所谓的「伪需求」。

从「有用」到「会用」

在车内，免唤醒词分为两类。

一种叫全局免唤醒，只要不息屏，在任何时间说出免唤醒词，都可以被识别。比如「导航到 xx」或者「我要听 xx」，打开某个应用也可以直接喊出。

另外一种是场景免唤醒，也叫应用内免唤醒，只能在某个应用里说出免唤醒词才有用。在音乐应用里说「上一首」、「下一首」，在导航界面说「放大地图」、「缩小地图」，「地图概览」等，都可以直接实现。

如同上文提到的一样，两类唤醒都需要通过免唤醒词的识别来判断，「我要去」这三个字就相当于关键字，当用户说出关键字/词，系统直接被唤醒，进而完成指令。

导航时可以使用语音免唤醒功能 | 哈弗官网

并且，因为触发免唤醒词无需连接到云端，在本地就可以完成识别，所以响应速度更加快速，也不存在汽车「持续监听」车内人们的对话的隐私问题。当需要联网时，比如搜索歌曲或者目的地，系统才会连接云端。

百度车联网在接受极客公园采访时表示，百度的免唤醒技术目前已应用于福特、长城、EXEED 星途等品牌的多款量产车型。

其中，场景免唤醒主要应用于导航、音乐等高频场景，可覆盖用户 70% 以上的日常使用需求，且覆盖场景仍在持续增长中。全局免唤醒主要应用于整个用车的过程中使用的功能上，如车控类需求。

导航、音乐等高频场景可覆盖用户 70% 的需求 | 哈弗官网

技术上，百度通过算法优化、响应限制等方式，可以很好的对误唤醒进行控制，从而为用户带来更好的体验。此外，得益于百度的 NLP 技术，百度在免唤醒词的泛化方面具备更为突出的优势，可以理解更多自然的表达方式，从而让免唤醒得到用户更广泛的使用。

对于用户的感知问题，厂商们也在发力。「我们通过新手教育、屏幕引导、上下文引导等方式，加强对用户语音交互习惯的培养。」百度车联网表示，百度车联网已上线了唤醒后引导、核心页面引导、事件关联引导等方案，即用户唤醒后提示用户可用的表达，在首页、地图等核心页面提示用户可以如何通过语音调用服务，根据用户目前的操作，提示用户下次可以如何通过语音对话来完成。我们希望通过直接告诉用户怎么使用，来丰富用户的语音表达，从而实现从「有这个功能」到「用户会用这个功能」。

以识别做唤醒

一项强科技属性的功能在车上率先使用，而不是在手机上，这也许还是头一遭。

智能语音交互出现于手机，普及于智能音箱，这两个硬件品类到现在都没能搭载语音免唤醒功能，看起来有点反常。

但是，如果把这项功能放在场景中去看，会发现汽车与语音免唤醒搭配的天衣无缝。

「产品和技术上都没有特别大的差异，只是场景不同，导致这样的区别发生。」王小华告诉极客公园。汽车本来就是一个密闭的空间，系统不需要长时间被打扰。相反，手机和智能音箱更多处于一个开放的环境，很容易受到噪音的干扰，如果搭载语音免唤醒功能，很有可能导致用户体验大幅下降。

汽车和智能音箱等场景有很大差别 | 网络

存在差异的同时，三个场景的不同也开始让功能慢慢融合。百度在 2019 年推出的全双工免唤醒能力，可以达到「一次唤醒，多轮交互」，并宣称很快就能在量产车型上落地。极客公园了解到，腾讯云小微也在尝试类似的能力，在一次唤醒之后，系统有 90 秒的持续唤醒，在这段时间内用户无需再次说出唤醒词。

在百度方面看来，全双工免唤醒能力和语音免唤醒功能各有优势，两种方式结合，优势互补，才能实现更好的体验。

没有完美的解决方案，以目前的技术发展程度而言，两种方式的结合也许更容易被人接受，在线和离线时刻都可享受语音交互的便利性。在全双工免唤醒能力上车后，百度将在量产版继续规范，如加强语义的理解能力，当系统解析后发现人们在闲聊则不为响应，以此达到精确辩识的目的。

在语音免唤醒的道路上，各方都在进行尝试 | 网络

博泰目前在语音方面进行尝试，即完全的全局免唤醒。「现在的技术是以唤醒来做识别，我们正在尝试以识别做唤醒。」王小华向极客公园表示，现在只是匹配了一些唤醒词的模型，只要说出关键词就自动唤醒，未来可以以任何方式说出指令，系统自动辨别是闲聊、打电话，还是控制车辆。

以上，可以看出大家的发展方向殊途同归。再向前看，多模态交互已经初现端倪。

2018 年 CES 上，Nuance 宣布为其 Dragon Drive 汽车平台推出新的人工智能功能。除了 Just Talk 这个语音免唤醒功能之外，Nuance 还提出了更大胆的想法：凝视检测。根据多模态交互，系统可将眼睛轨迹和头部角度与精确的汽车定位，以及 3D 环境建模相结合，以跟踪用户的注视。当用户查看车辆内外的对象，并随便说出它，比如一家餐厅，人工智能根据 Just Talk 功能和上下文推理，就能很明确地知道用户想知道的是什么。

Nuance 的 just talk 功能 | engadget

诸如地平线、百度等公司，都在向多模态交互尝试。根据唇部的动作，系统能识别出用户说的话，并分析语义是否为指令。

在自然交互中，语言传递的信息只占一小部分，通过手势、动作、表情等传递的信息占到大部分，所以未来的交互趋势绝不仅限于语音这一方面，一系列动作都将成为我们在车内的「唤醒词」。

责任编辑：王训魁

一个伪需求？

从「有用」到「会用」

以识别做唤醒

最新文章