Sugr 的回答:智能音箱只是开始,中美语音交互有何不同?

摘要

Sugr 团队认为,语音交互会成为下一代的操作系统。

Sugr 的 CEO 宋少鹏在西南偏南的台上讲了一个故事:他的一个客户找到他,想要修复刚刚坏掉的智能音箱,宋少鹏提出给他换一台新设备,却被拒绝;用户的理由温情融暖,十岁的孩子一直都在用这台音箱,孩子把它当做伙伴,舍不得。

似乎刚刚走向普及的语音交互技术,等不及太久,竟然一下子从「工具」进化成了「伴侣」。

2014 年,亚马逊发布搭载 Alexa 的 Echo 智能音箱,语音交互有了更合适的落地场景。经过几年的功能迭代,生态链逐渐成熟。2017 年人工智能技术飞速发展,语音交互在 AI 的带动下变得越来越智能,智能音箱走进了千家万户。

据相关调查报告显示,大约有 3900 万美国人拥有智能音箱产品,这个数字占到了美国总人口的六分之一。

这股风潮当然也刮到了中国。在 Echo 发布后,Sugr 主动拥抱 Alexa 平台,成为国内第一个通过亚马逊认证的智能音箱产品,并与 Alexa 平台合作,向其他客户提供多款完整的智能语音交互解决方案 Sugr Sense,可以满足包括智能家居、IOT、车载等不同应用场景的产品开发与快速量产。

在美国西南偏南大会(SXSW),这个科技和音乐的艺术盛典上,宋少鹏带来了他的分享,探讨语音交互的未来、中美语音交互使用习惯的差异,以及语音交互在中国的落地。

Sugr CEO 宋少鹏

语音交互是下一代操作系统

Sugr 团队认为,语音交互会成为下一代的操作系统。宋少鹏提到,这和人机交互的进化规律有关。从 PC 时代的键盘鼠标,到智能手机时代的触屏,人操控外界环境的效率一直在上升,能耗在降低,而语音交互是一种更简单、更自然的交互方式,也符合这样的规律。所以,语音交互会成为下一代的操作系统。

从音乐产品的迭代来看,也可以印证这个规律。在古代,热爱音乐的人去欣赏音乐,需要驾着马车到音乐厅或者歌剧院。后来留声机的发明让人们可以躺在家里听音乐。到了 iPod,大家可以把 1000 首歌装进口袋,手指一滑,就可以欣赏喜欢的音乐。到 2014 年 亚马逊发布 Echo 智能音箱,人们只需要动动嘴就能得到自己想要的音乐,能量消耗进一步减少。

语音交互降低了人跟物理世界交互所需的能耗,这个趋势是符合产品迭代规律的。

中美的智能语音交互和而不同,场景和用户习惯会塑造产品形态

虽然 Sugr 团队认定语音交互会成为下一代操作系统,但智能音箱在中国的落地并不能完全照搬美国的做法。环境变化,对产品的需求自然也不一样。

在宋少鹏看来,音乐消费的 DNA 不同,导致了行为习惯的差异。他提到,美国的音乐消费者是成长于汽车上的黄金一代,汽车上都配备收音机,他们的音乐消费是从听收音机开始的。大家习惯了这种背景式的、实时存在式的播放,在任何一个生活场景里面都想要有音乐的存在。这种情况下,他们更喜欢歌单推荐、流媒体的音乐形式。


西南偏南 极客公园 IF 大会现场

中国的音乐消费者最初接触音乐是源于 80 年代初期改革开放,港台音乐以盒带和卡带形式大量流入内地,大家接触音乐是一个歌手的完整专辑,里面有各种各样的曲风,但很少有合集和混编。所以他们更习惯于点播式的音乐消费。

智能音箱在美国的诞生并不是偶然,它解决了家庭环境听音乐的痛点,可以让音乐一天不停地播放,而流媒体形式的听歌习惯不需要太多操控,对语音交互的语义理解能力要求就没那么高。所以美国的公司才能以「最小化可实现原型」的形式,迅速推出智能音箱这样一个产品,来满足用户的需求。

音箱本来是被动播放音乐的产品,人工智能和语音助手的加入使它能够主动获取信息,并和人产生交互,成为一个流量的入口。随着技术的进步,它又开始加入家居产品的控制功能,逐步成为智能家居的中控,这样就有了很大的想象空间。

Amazon 有 Alexa,Google 有 Google Assistant,Apple 有 Siri,腾讯百度阿里巴巴也都有自己的智能语音助手。巨头的加入让整个生态链更加完善,智能语音交互也开始有了更多的应用场景,从智能家居、儿童看护、IOT 物联网、车载;随之而来的,还有更多适应这些场景的产品落地形态。


不只产品,而是完整体验

在目标明确,道路明晰之后,Sugr 将精力投入到语音交互产品的落地工作中。他们的音箱成为国内第一个经过 Alexa 认证的智能音箱产品,后来开始和亚马逊团队进行合作,给想进入 Alexa 平台的产品提供技术解决方案。Sugr 团队将自己在语音交互产品上的经验打包,从做 C 端产品转型为做 B 端的方案。

Sugr 团队推出的 Sugr Sense 方案是一个完整的智能音箱解决方案,包括 Wi-Fi 模块,底层技术,操作系统,还有语音 Skill,是软硬结合的全栈式解决方案。这其中有一套单麦克风的解决技术,是目前全球唯一一套可以通过 Amazon 严格测试并认证的单麦克风解决方案。这项单麦克风解决方案在 Amazon 的测试环境里拥有不错的成绩,在 9 英尺的环境下(2.74 米),普通办公或者是家居环境下,唤醒响应率能达到 100%,在 9 英尺的距离,在设备自身播放音乐,AEC(自适应回声消除)场景下,正确响应率达到了 98%。

除此之外,还有多款可适用于智能家居、IOT、车载等不同应用场景的完整解决方案,不但可以降低行业门槛,还可以提升整个行业的效率。

从产品接入 Alexa,到和亚马逊合作,帮助其他的产品接入 Alexa,Sugr 认识到 Echo 的成功不能简单归结为单纯的产品或技术进步,而是一整套用户体验方案的解决。而这些经验对智能音箱在中国的落地有很大的借鉴意义。

正如前面所说,在中国点播音乐是常态,这需要更强大的语义理解能力,更丰富、更深入的音乐知识图谱,以及更完善的音乐版权和曲库。还有使用场景的不同,美国家庭大多是中央空调系统,而中国的空调大部分为独立的壁挂式、落地式空调,如果音箱作为智能家居的中控,对于空调的控制场景是不同的。在中国做智能语音交互产品,照搬亚马逊是不行的,需要融入更多关于产品使用场景、用户交互习惯方面的思考。


未来是智能语音交互的时代

当冰冷的科技与人文发生碰撞而开始有了温度,陪伴的意义就超出了技术的范畴。

伴随着智能手机、触屏长大的孩子们,看见什么都想点一点;而我们的下一代将是成长在语音交互时代的。也许,智能语音交互会改变的,不仅仅是我们和数码产品之间的交流方式,也正在悄悄的影响着我们人与人之间的互动。

最新文章

极客公园

用极客视角,追踪你最不可错过的科技圈。

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

顶楼

关注前沿科技,发表最具科技的商业洞见。