为智能音箱加上「眼睛」,天猫精灵用最接地气的方式做了一次产品升级

摘要

智能音箱从能听到会看,多模态交互将成为趋势。

8 个月时间,在天猫精灵 X1 智能音箱从发售到销量 200 万后,阿里巴巴人工智能实验室举行了 2018 年的第一场发布会(3 月 22 日),而这一次发布的核心产品,有点出乎大家意料。

用一个 49 元的手机支架,和几乎人人都有的智能手机,天猫精灵进行了一次变身,不但变得比以前更加聪明,还拥有了全新的「多模态感知系统」。作为 2017 年的行业黑马,本次发布会上让人激动的这件新品不再是硬件,而是重量级的系统升级——AliGenie 2.0,我们不妨先来看看这段官方视频演示:

AI 变奏曲:智能音箱从能听到会看

毫无疑问,当天发布会上的主角正是阿里巴巴人工智能实验室的 AliGenie 2.0,它加入了最新的 AI 视觉系统,并尝试去融入更多情感操作。阿里巴巴人工智能实验室负责人浅雪称之为「天猫精灵火眼」。和去年 7 月推出的 AliGenie 1.0 最大的不同在于,2.0 版本从原本能听能说,变成了如今的能看能听能说

能看是系统升级的重点,「从触觉到听觉,再到视觉,最后是情感反馈,多模态交互是 AliGenie 2.0 的核心」,对于此次系统升级,浅雪认为它最大的不同是人机交互的变化,尤其是因此产生的与众不同的用户体验。

阿里巴巴人工智能实验室负责人 浅雪

搭载「火眼」的天猫精灵,在原本的天猫精灵 X1 上增加了一个手机支架,通过把手机连接到天猫精灵 App,手机屏幕出现了一只可以交互的「天猫」,通过手触摸,它可以简单和人互动。

这只「宠物猫」拥有 AI 识图能力。依靠手机前置摄像头,天猫精灵有了能「看懂」周围事物的「眼睛」,它可以识别 2D 和 3D 信息。具体来说,有三个重要能力加入。

第一,当你手拿儿童故事书,或者识字卡靠近,询问天猫精灵「这是什么」时,它可以「看到」并立即为你朗读卡片和故事书的内容。

其次,通过连接阿里健康的数据信息,天猫精灵有了「判断」药品的能力,可以迅速识别 40000 种中国家庭常用药。当你手拿药品盒子在手机摄像头前询问时,这只「猫」会手拿药盒,告诉你它的名称,功效甚至有效周期。

第三,同时也是最让人惊讶的能力,天猫精灵具备了基础的 3D 图像识别的能力。当手持蔬菜、水果等物品靠近摄像头询问时,它可以很快告诉你这是什么物品。

和前两种的 2D 图像识别不同,3D 识别物体要做到的是不论你用何种角度拿着物品靠近摄像头,它都能判断出物体是什么,按照产品总监释空的解释,这(难度)要比 2D 识别大得多。

因为 3D 识别不仅在考验系统对周围环境光线的适应、同时也要对你手持物体角度进行准确把握,还要有足够的数据信息可以搜寻出物体。比如在你拿着一个已经发霉变色的西兰花时,要想被识别出来,就必须知道这还是西兰花,这对于机器来说并不容易。所以目前,天猫精灵能识别出的蔬菜水果不多,只有几十种,但这种能力却对于将来识别更多物品(包括商品),甚至于人脸都具有重要意义。

此外,发布会很重要的一部分在于天猫精灵的边界扩展,看到前面几个功能也许有人能猜到,阅读故事书,教人读书写字,这是面向儿童的能力。而帮你识别药品,告诉你药品功效,再告诉你还有多久会过期,这是更贴近老人的能力。

因此天猫精灵不但联合了国内 12 家少年儿童出版社,对市面上 117 套儿童读物以及绘本进行了有声读物化,还将通过马云公益基金会将天猫精灵带到更多偏远地区,为当地学校教育以及儿童陪伴问题提供新的解决思路。

尽管发布会还另外带来了阿里巴巴人工智能实验室的路由器、投影仪以及迷你版天猫精灵,但最核心的主角无疑就是全新升级的 AliGenie 2.0 系统。这不由得令人好奇,当国内外厂商纷纷升级了带屏幕的智能音箱时,为何阿里巴巴选择了这样一个「非常规」的升级方式?不是通过卖新的产品,而是用 App 和用户自己的手机,这样一个更加「软着陆」的方式来使用新产品(也是新系统)呢?

殊途同归的多模态交互

一个现状是,带有屏幕的智能音箱价格与人们期望存在差距。市面上带屏幕的智能音箱,少则近千元,多则数千元。可以说在目前阶段,当用户考虑用数千元买一个带屏幕的智能音箱时,他们会犹豫,并会和一些其它成熟产品(如 iPad 等)比较其是否值得?

这也是摆在包括浅雪在内的团队成员面前同样的问题,因此需要考虑的就是:如何用极低的成本,尽量做到现阶段能实现的最优体验?团队内部对此曾出现过分歧,用释空的说法,最终他们认为,由于目前阶段带屏幕的智能音箱产品不具有足够的议价,因此就做出了用手机来完成这些的方案。

这让人想起了谷歌在 VR 推进早期曾大力推行的产品「CardBoard」。

纸板做的廉价 VR 眼镜——Google CardBoard

在 VR 产业刚刚起步阶段,市面上 VR 产品不但价格贵,体验也并不优秀,于是谷歌采取了用廉价纸盒做 VR 眼镜的策略,满足了大家在好奇期的想法,并成功向大众普及了 VR 这一概念,这种方式不得不说是有其必要性的。

「我们最关注的事情是如何让每个用户用最低的成本入门就能完全体验。」浅雪说,这种观点最终指向的目标是给每个人做有用有价值的人工智能,所以尝试出这样的方案在意料之中。

但在大方向上,智能音箱不应该仅仅只有语音交互,应该是语音、视觉、情感多模态交互的观点,这却是 AliGenie 系统,乃至整个智能音箱领域目前达成的一个基础共识。

的确,智能音箱优点很多,但尝试过的用户都会认为它不够完美,声音交互的特性让它在很多场景中不够灵活,而要解决这个问题,利用屏幕也许是一个途径,今年开年来,伴随 CES 2018 展会,我们见到了国内外众多带有屏幕的智能音箱,谷歌甚至组建了一个「Smart Display」联盟,想要让这一趋势迅速蔓延开来。

从左到右,LG、联想、JBL 的 Smart Diaplay 产品

在浅雪看来,阿里人工智能系统 AliGenie 2.0 系统升级,它的「能力比一块屏幕更重要」。目前阶段下,通过一个 App 和手机就能体验到的事情,既能让用户拥有更好的心理预期,又能在吸取经验进一步打磨未来产品,这样的尝试能让更多用户理解,有了屏幕交互的智能音箱不同于 iPad,语音控制和屏幕触控也不是互相替代,而是互补关系。

一旦有了这种体验,大家就会发掘出自己真正需要的到底是怎样的智能音箱。如发布会现场演示的功能一样,教育儿童,可以通过看到卡片和图书来给孩子讲故事;帮助老人,可以通过看到药品盒子就说出功能功效和截止日期。这种轻度体验能在生活中慢慢培养人们对于智能音箱的新的认知。

如果说 2017 年是国内智能音箱竞赛元年,那么站在赛道上的阿里巴巴无疑通过双 11 的 100 万台销量成为了行业黑马。而随着 AliGenie 2.0 的推出,2018 年人工智能产品将更具扩展性,多模态,让人更自如的交互无疑将成为接下来各大厂商关注的重点。(编辑:Rubberso)


最新文章

极客公园

用极客视角,追踪你最不可错过的科技圈。

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

顶楼

关注前沿科技,发表最具科技的商业洞见。