智能音箱的中国场景在哪里?

智能音箱的中国场景在哪里?

4 年前,智能语音助手 Siri 借 iPhone 之势,第一次让人们体验到,原来通过和手机对话就能完成过去很多不方便的操作。

Siri 给全世界展现的,是一种更加「拟人化」,更加「生活化」的新的交互方式,尽管推出后并不如人们所期待的那样聪明,但从那时开始,人类对于「语音交互能带来怎样的可能性」这个问题,开始有了更多的思考。

2 年前,名叫「Alexa」的语音助手借 Amazon Echo 开始进入美国成千上万的家庭当中,人们惊喜的发现,原来只需要动动嘴,不但能像过去一样查询天气、日程,甚至还可以点播音乐、开关空调、调整客厅灯光,甚至包办下网上购物的功能。

Amazon Echo 让人们认识到,原来在家庭生活当中,人们不用围绕手机,也能够拥有更智能化的体验。

2017 年,国内互联网公司们也开始了智能音箱的征途,从百度、阿里巴巴、京东,到小米、喜马拉雅 FM,众多厂商相继宣布要瞄准智能音箱发力,一系列新品也开始在市场出现。

智能音箱战场已经硝烟四起,它的「中国式玩法」究竟是什么?怎样扬长避短寻找到正确的路径理解国内用户和智能音箱的关系?这些问题在深圳米唐科技创始人 & CEO 宋少鹏看来,不单单是技术问题,更是用户体验差异的问题。要想找到答案,就必须了解中美环境的异同。

在极客公园 Rebuild 2017 大会上,宋少鹏和我们分享了如何从细节角度来看,中美智能音箱使用上的异同,从更深的角度去理解,中国人究竟需要什么样的智能家居产品。


语音交互是交互进化的自然阶段

在宋少鹏看来,在探讨语音交互、人工智能这些话题之前,首先要讨论的是 Amazon Echo 成功的一些必备因素,因为这些要素当中包含了三个问题:

  1. 为什么是语音交互而不是其它交互方式进入到人们家庭当中?
  2. 为什么智能音箱是从美国,从一个做电商的公司进行了落地?
  3. 中国和美国的差异,怎样影响智能音箱的不同体验?

为什么是语音交互?宋少鹏认为这是由人机交互演进之后的自然选择,因为它意味着交互成本降低,他举出了两个例子:

第一,如果你想算 2 的 10 次方减 1,在鼠标、键盘、触摸、语音四中交互环境下,完成这个交互时间最少的,就是语音交互。因为语音交互所需要消耗的能量更少,人们完成这个交互所需要付出的成本更低。

第二,在古代,热爱音乐的人去欣赏音乐,需要驾着马车到音乐厅或者歌剧院。后来留声机的发明使人们可以躺在家里听音乐。面到了 iPod,大家可以把 1000 首歌装进口袋,手指一滑,就可以欣赏喜欢的音乐。到 2014 年 Amazon Echo 发布智能音箱,人们只用动动嘴就能得到自己想要的音乐,这意味着能量消耗进一步减少。

所以说,语音交互降低了人跟物理世界交互所需的能耗。这个趋势符合产品迭代的趋势。

微信图片_20170807193019.jpg

基于这样的判断,宋少鹏创立了 Sugr 米唐科技,从 2013 年开始研究音频产品的互联网化,从语音、触摸、体感等多种方式降低人们获取音乐的能耗。

而到了 2014 年,Amazon Echo 和 Alexa 的发布,解决了人们需要的语音交互的很多问题。于是 Sugr 主动拥抱 Alexa 平台,成为国内第一个经过 Alexa 认证的智能音箱产品。


从小众走向刚需的智能音箱

说到第二个问题:为什么智能音箱从美国,从一个做电商的公司进行了落地?宋少鹏和他的团队从 2014 年就开始运营自有品牌的音箱产品,通过用户访谈,以及后台数据发现了一些规律:中国的音乐消费者跟美国的音乐消费者在消费习惯上有很大的不同。

FireShot Capture 8 -  - file____C__Users_geekpark_Desktop_4-%E5%AE%8B%E5%B0%91%E9%B9%8F-Sugr%E5%A.png

美国的音乐消费者是成长于汽车上的黄金一代,汽车上都配备收音机,所以他们的音乐消费是从听收音机开始的。大家习惯了这种背景式的、实时存在式的播放,在任何一个生活场景里面都会有音乐存在,这种情况下,他们更倾向于流媒体音乐形式。

而说到中国的音乐消费者,最初接触音乐是源于 80 年代初期改革开放,港台音乐以盒带和卡带形式大量流入内地,所以大家接触音乐是一个歌手的完整专辑,里面有各种各样的曲风,但很少有合集和混编。

微信图片_20170807194240.jpg

这样的不同其实就在我们两地的音乐 app 上有了体现,宋少鹏以 Spotify 和 QQ 音乐做了类比:

  1. 搜索在 QQ 音乐始终是一级菜单,在最显眼的地方,最方便用户搜索。在 Spotify 上你要到二级菜单才能完成搜索的功能。
  2. 封面、歌词在 QQ 音乐属于非常显著的位置,非常多的视觉信息,而在 Spotify 里没有。

因为美国人对音乐的刚性需求,他们对于流媒体音乐的使用习惯,所以在智能音箱为大家提供语音交互的时候,用户对于语义理解的要求反而没有那么高,点播歌曲的频度没有那么多。

03.png

当我们再看 Amazon Echo 在北美刚开始的成功,其实就在于 Amazon Echo 首先解决了家庭环境听音乐的痛点,可以让音乐一天不停地播放,使得 Amazon 可以以 MVP(minimum viable product,最小化可实现原型)的形式,拿出一款产品来迅速交付消费者并进行迭代。

这之后 Amazon Echo 进入了一个快速迭代的流程,开始迭代服务、信息,比如说天气、交通等等,这样使他的服务越来越丰富,也使得用户的黏性越来越高。

音箱本来是被动播放音乐的产品,人工智能和语音助手的植入使它成为一个主动获取信息、获取音乐,成为一个流量的入口。慢慢地,技术的迭代使得它开始加入了家居其他产品的控制功能,逐步成长为家居的中控,这样就有了无比巨大的想象空间。

这也就解释了为什么几乎所有的互联网巨头,包括 Google、亚马逊、微软、苹果都进入了这样一个产品竞争的赛道。其实,从手机到智能音箱,再到不远的将来,每个家庭中的其他电子产品中,它们都将有可能被赋予「万物听说」的能力,而音箱的成功,意味着这条路继续往下走的正确性在,这也正是宋少鹏和他的米唐科技正在做的事情。


智能音箱落地中国还缺什么

尽管宋少鹏和他的团队开发出的产品早已进入了亚马逊的 Alexa 认证体系,成为亚马逊平台上第一个通过认证的来自中国的智能音箱。但智能音箱在中国应该给用户提供什么样的服务?仍是他思索的问题。

FireShot Capture 9 -  - file____C__Users_geekpark_Desktop_4-%E5%AE%8B%E5%B0%91%E9%B9%8F-Sugr%E5%A.png

中美消费者对于音乐消费的 DNA 是不同的,所以在中国,点播会是一个非常强的需求,是一个常态,点播所带来的技术上的需求会更加急迫,它包括更强大的语义理解能力,更丰富、更深入的音乐知识图谱,以及更完善的音乐版权和曲库。

另外,中国人家庭环境和美国也有区别,通常都是壁挂式或者是落地式的空调,每一个空调都有单独的摇控器,这就决定了如果音箱作为一个智能家居的中控,它对于空调的接口、控制场景和体验是不同的。

这样的场景还有很多,包括厨房、卧室等等,也正因为不同的场景,因此所带来的用户需求一定是不同的。

所以在宋少鹏看来,在中国做智能音箱一定不能复制 Echo 的路径,而是要找到我们真正消费者的需求,落实消费者的场景,来解决我们自己的问题。

微信图片_20170807194207.jpg

宋少鹏和他的团队做出了 Sugr Sense 方案,这是一个完整的智能音箱解决方案,它包括了麦克风和麦克风阵列的处理技术,里面有去回声、去噪音、声源定位、语音唤醒等等技术特征。这其中有一套单麦克风的解决技术,是目前全球唯一一套可以通过 Amazon 严格测试并认证的单麦克风解决方案,不但可以降低行业门槛,还可以提升整个行业的效率。

这项单麦克风解决方案在 Amazon 的测试环境里拥有不错的成绩,在 9 英尺的环境下(2.74 米),普通办公或者是家居环境下,唤醒响应率能达到 100%,在 9 英尺的距离,在设备自身播放音乐,AEC(自适应回声消除)场景下,正确响应率达到了 98%。

提到产品经历过 Amazon 的认证过程,宋少鹏提到,Amazon 对于产品认证的环节非常考量,有多个环节:

首先,认证从产品开箱体验开始,事无巨细。

之后,官方会测试网络的配置、唤醒的速度、灯效、光效、回答的效率、回答的准确率,甚至连 app 的交互体验都在测试范围内。

经历了这样的过程,产品会接入 Amazon,帮助合作伙伴把产品送到线上和北美线下的店铺进行销售,这样是从认证-合作的整个过程。

FireShot Capture 11 -  - file____C__Users_geekpark_Desktop_4-%E5%AE%8B%E5%B0%91%E9%B9%8F-Sugr%E5%.png

所以,Amazon Echo 的成功不仅仅在于提供给用户一些方便的功能,更是从包装到使用到售后的一套完整的用户体验,而在国内,经历这样良性的过程,才能把握好产品对于产品和消费者之间的关系,这也许是智能音箱落地中国的重要因素。(编辑:Rubberso)

AlexaAmazon echo米唐科技Sugr Cube智能音箱
关注极客公园公众号
反馈