手机和音箱都没达到的语音交互高度,被汽车搞定了

摘要

追求车内最自然的交互方式,大家都在尝试。

「Hi Google」、「Hey Siri」、「小度小度」、「理想同学」……

随便列举几个智能语音的唤醒词,会发现大多雷同。时间久了,总会感到疲倦。

从技术的角度看,这些唤醒词其实是经过「筛选」,是为了保证足够的唤醒率。在技术提升之后,新的唤醒方式出现了,不再执着于加上前缀,而是用多样性或者自定义来实现,自定义的唤醒词开始能够满足用户的个性化需求。     

         固定的唤醒词已不能满足用户的需求 | Medium

这样还不够。如果想让机器变得像人一样,发展过程中必须摸索怎样的人机交互在流畅的同时,还能保证语音对话不输人人之间交流。换一个角度想,如果一定要对着机器说:「我要 xx……」,可能会很奇怪,加上一个唤醒词会更加合适。但是当场景里只有两个人的时候,这样的唤醒词会显得很多余。

瞄准这样的需求,汽车内这种独特场景下的「语音免唤醒」应运而生。

车内的场景比较单一,不少人将唤醒词视为累赘,并努力将其消除掉,力求保证人机交互的流畅性。但同样有人提出质疑,认为免唤醒在目前阶段还不成熟,它会制造更多的麻烦。

那么,这项功能到底靠不靠谱?


一个伪需求?

不需要所谓的唤醒词,就能够控制车载系统部分功能,是语音免唤醒最大的优势。

用通俗的话讲,只要后台的语音一直保持「在线」状态,就像一位忠诚的朋友安静地在你旁边待着,一旦收到你的命令就立马去执行一样。只不过,你只有说出它能听懂的词才可以。

举个最直观的例子,假如我们要去雍和宫,之前用语音发出指令是这样的:

「你好 xx(唤醒词)」;

「我在」;

「我要去雍和宫」

「好的,已为您规划路线,是否开始导航?」

加上语音免唤醒之后,变成这样:

「我要去雍和宫」

「好的,已为您规划路线,是否开始导航?」

由于减少了唤醒这一步骤,语音交互效率能够有效提升。这也是为什么大家都希望上线语音免唤醒功能的原因。相比最开始的做法,直接说出指令的感觉要好太多,同时也避免了人机交互过程中的生硬。     

         语音免唤醒的体验要比说唤醒词好很多 | SoundHound

「所见即所说。」一位业内人士对免唤醒功能给予了高度评价。

可以确定的一点是,语音免唤醒在技术上可以实现,但做到极致的用户体验是非常有难度的。核心问题就是对误报的控制,在保证低误报情况下做到高精度免唤醒是难点。

据极客公园(ID:geekpark)了解,长安福特 Active,哈弗 H6、新宝骏 RM-5、理想 ONE、吉利博越等车型均已搭载免唤醒功能,但各家其中的技术方案并不完全相同。在传统汽车向智能汽车转型的过渡时期,更多互联网相关的新科技也逐渐搭载在车上。因此,这也成为了互联网企业、科技公司,或者技术供应商们争夺全新市场的绝佳机会。    

哈弗 H6 已搭载语音免唤醒功能 | 哈弗官网

即便有车型搭载、以及众多供应商支持这项功能,但不可否认的是,这仍然是一项较小众的功能。有业内人士向极客公园表示,车企之所以不搭载语音免唤醒,是担心用户在使用过程中触发误唤醒,导致体验变差,甚至会认为是「伪需求」。

「像 Siri 一样,有时候不小心就会唤醒 Siri 出来,其实让操作更加麻烦,如果在车内,误唤醒可能会有安全隐患。」上述人士说到,车企没有用上语音免唤醒功能,主要是出于安全方面的考虑。

另一方面,由于语音免唤醒需要车机在后台时刻保持在线的状态,如果在车内两人聊天时误唤醒,导致导航偏离目的地,对用户体验也是很大的伤害。

使用语音免唤醒功能的厂商,对此则是另一番解释。

「目前语音免唤醒瞄准的是高频操作来设计,恰恰是对语音交互效率非常大的提升,」上海博泰终端软件中心执行总监王小华向极客公园表示,在车内使用比较多的语音交互是导航、娱乐这样的诉求,如果经常使用的话,免唤醒就是一语中的,比需要唤醒词的两步操作体验要好很多。上海博泰成立于 2009 年,在车联网领域研究多年。最近,博泰推出了「随身车联网」的概念,借助手机的算力,但应用都在车机上操作,让用户的手机变成一款车机。与车企深入合作的众多功能中,语音免唤醒也算一个不小的亮点。              

         博泰「随身车联网」的语音免唤醒是个亮点功能 | 极客公园拍摄

王小华认为,之所以许多车企没有使用语音免唤醒功能,是因为大家对于体验的理解不同。比如误唤醒率的指标,车企对于语音功能的偏好上都不一样。而博泰的出发点在于,怎样找到车内交互最高效率和误唤醒之间的平衡点。

另外,虽然纯技术上没有难点,但从技术到产品的过程中,还是暗藏了不少的「坑」。怎样设计唤醒词、哪些场景需要用到哪些技术去匹配,或者对于未来产品的考虑,都能对体验产生影响。

鉴于人类在互相沟通过程中不会重复喊对方(相当于唤醒词),所以免唤醒,直接说出指令是更符合人们自然交互的,相信这个功能最终也会推广开来,而不是变成所谓的「伪需求」。


从「有用」到「会用」

在车内,免唤醒词分为两类。

一种叫全局免唤醒,只要不息屏,在任何时间说出免唤醒词,都可以被识别。比如「导航到 xx」或者「我要听 xx」,打开某个应用也可以直接喊出。

另外一种是场景免唤醒,也叫应用内免唤醒,只能在某个应用里说出免唤醒词才有用。在音乐应用里说「上一首」、「下一首」,在导航界面说「放大地图」、「缩小地图」,「地图概览」等,都可以直接实现。

如同上文提到的一样,两类唤醒都需要通过免唤醒词的识别来判断,「我要去」这三个字就相当于关键字,当用户说出关键字/词,系统直接被唤醒,进而完成指令。         

导航时可以使用语音免唤醒功能 | 哈弗官网

并且,因为触发免唤醒词无需连接到云端,在本地就可以完成识别,所以响应速度更加快速,也不存在汽车「持续监听」车内人们的对话的隐私问题。当需要联网时,比如搜索歌曲或者目的地,系统才会连接云端。

百度车联网在接受极客公园采访时表示,百度的免唤醒技术目前已应用于福特、长城、EXEED 星途等品牌的多款量产车型。

其中,场景免唤醒主要应用于导航、音乐等高频场景,可覆盖用户 70% 以上的日常使用需求,且覆盖场景仍在持续增长中。全局免唤醒主要应用于整个用车的过程中使用的功能上,如车控类需求。      

导航、音乐等高频场景可覆盖用户 70% 的需求 | 哈弗官网

技术上,百度通过算法优化、响应限制等方式,可以很好的对误唤醒进行控制,从而为用户带来更好的体验。此外,得益于百度的 NLP 技术,百度在免唤醒词的泛化方面具备更为突出的优势,可以理解更多自然的表达方式,从而让免唤醒得到用户更广泛的使用。

对于用户的感知问题,厂商们也在发力。「我们通过新手教育、屏幕引导、上下文引导等方式,加强对用户语音交互习惯的培养。」百度车联网表示,百度车联网已上线了唤醒后引导、核心页面引导 、事件关联引导等方案,即用户唤醒后提示用户可用的表达,在首页、地图等核心页面提示用户可以如何通过语音调用服务,根据用户目前的操作,提示用户下次可以如何通过语音对话来完成。我们希望通过直接告诉用户怎么使用,来丰富用户的语音表达,从而实现从「有这个功能」到「用户会用这个功能」。       

  

以识别做唤醒

一项强科技属性的功能在车上率先使用,而不是在手机上,这也许还是头一遭。

智能语音交互出现于手机,普及于智能音箱,这两个硬件品类到现在都没能搭载语音免唤醒功能,看起来有点反常。

但是,如果把这项功能放在场景中去看,会发现汽车与语音免唤醒搭配的天衣无缝。

「产品和技术上都没有特别大的差异,只是场景不同,导致这样的区别发生。」王小华告诉极客公园。汽车本来就是一个密闭的空间,系统不需要长时间被打扰。相反,手机和智能音箱更多处于一个开放的环境,很容易受到噪音的干扰,如果搭载语音免唤醒功能,很有可能导致用户体验大幅下降。     

         汽车和智能音箱等场景有很大差别 | 网络

存在差异的同时,三个场景的不同也开始让功能慢慢融合。百度在 2019 年推出的全双工免唤醒能力,可以达到「一次唤醒,多轮交互」,并宣称很快就能在量产车型上落地。极客公园了解到,腾讯云小微也在尝试类似的能力,在一次唤醒之后,系统有 90 秒的持续唤醒,在这段时间内用户无需再次说出唤醒词。

在百度方面看来,全双工免唤醒能力和语音免唤醒功能各有优势,两种方式结合,优势互补,才能实现更好的体验。

没有完美的解决方案,以目前的技术发展程度而言,两种方式的结合也许更容易被人接受,在线和离线时刻都可享受语音交互的便利性。在全双工免唤醒能力上车后,百度将在量产版继续规范,如加强语义的理解能力,当系统解析后发现人们在闲聊则不为响应,以此达到精确辩识的目的。

         在语音免唤醒的道路上,各方都在进行尝试 | 网络

博泰目前在语音方面进行尝试,即完全的全局免唤醒。「现在的技术是以唤醒来做识别,我们正在尝试以识别做唤醒。」王小华向极客公园表示,现在只是匹配了一些唤醒词的模型,只要说出关键词就自动唤醒,未来可以以任何方式说出指令,系统自动辨别是闲聊、打电话,还是控制车辆。

以上,可以看出大家的发展方向殊途同归。再向前看,多模态交互已经初现端倪。

2018 年 CES 上,Nuance 宣布为其 Dragon Drive 汽车平台推出新的人工智能功能。除了 Just Talk 这个语音免唤醒功能之外,Nuance 还提出了更大胆的想法:凝视检测。根据多模态交互,系统可将眼睛轨迹和头部角度与精确的汽车定位,以及 3D 环境建模相结合,以跟踪用户的注视。当用户查看车辆内外的对象,并随便说出它,比如一家餐厅,人工智能根据 Just Talk 功能和上下文推理,就能很明确地知道用户想知道的是什么。   

         Nuance 的 just talk 功能 | engadget

诸如地平线、百度等公司,都在向多模态交互尝试。根据唇部的动作,系统能识别出用户说的话,并分析语义是否为指令。

在自然交互中,语言传递的信息只占一小部分,通过手势、动作、表情等传递的信息占到大部分,所以未来的交互趋势绝不仅限于语音这一方面,一系列动作都将成为我们在车内的「唤醒词」。


责任编辑:王训魁


最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。