实现不间断对话后,微软小冰距离理想中的样子又近了一步

摘要

采用全双工语音技术,微软想要让人与机器之间的交互变得更自然。

在众多的语音助手中,微软小冰是一个特殊的存在。作诗、唱歌、陪人聊天,即便客观层面上小冰做的依旧并不完美,比如你和她聊天的时候,总会收到一些无厘头的回复,但她正在一步步向着人们理想中的人工智能靠近。

算上前几天微软小冰团队召开的媒体沟通会,我和微软(亚洲)互联网工程院副院长、微软小冰全球负责人李笛一共有过三次接触。将这三次接触连在一起,也能够让我们或多或少看到小冰的现在和未来。


从作诗到唱歌,小冰的「养成计划」

去年五月底,也就是在微软宣布小冰独立完成诗集《阳光失了玻璃窗》之后,带着好奇我对李笛做了一次一对一采访。在那次采访中,我得到了两个现在看来很有价值的答案:小冰选择作诗的理由和是否会进行落地。

为什么要让小冰去作诗?这可能是很多人的第一反应。如果单就小冰作诗这件事情本身来讲,确实会让人感觉到很突兀。

外界对此的看法大致分为两种:一种认为诗歌作品本身的逻辑关系是跳跃的,它的读者有很多的想象空间,所以操作起来比较简单;另外一种截然相反的观点则认为,诗词是非常高超的文学形式。

不可否认的是,以上两种观点都有着一定的道理,但显然这并未触及到小冰团队最初想要达到的目的。在那次与李笛的交谈中,他肯定了「操作起来比较简单」的说法,「相对固定的数据,是我们选择诗歌的原因。」

而让小冰作诗背后更重要的一点是,从 1919 年五四之后到现在,实际上中国的现代诗的诗歌风格其实变化不是很大,比较有助于小冰形成自己的风格。从某种角度上来说,作诗更像是一种训练小冰形成风格化的方式。

当然,按照常规逻辑来讲,语音助手最终是需要进行落地的。有关这个问题,李笛当时也坦诚的讲到,其实包括国内外几乎所有做人形的机器人厂商都向微软咨询过合作事宜,不过都被拒绝了。 

原因主要有两方面,第一个也是非常重要的一点是,彼时在他们看来没有必要将小冰放到实体里去限制它,完全可以是纯数字形态;另外还有一点是,硬件的技术和科研水平没有达到微软的要求。

站在今天再去回顾当时的对话,显然「硬件的技术和科研水平没有达到微软的要求」是主要的原因。事实也证明,小冰团队也一直在为其实现落地这件事情做着努力。

2017 年 6 月 13 日,在微软联合湛庐文化发布了由人工智能小冰独立完成的诗集《阳光失了玻璃窗》一个月之后,微软再次召开朱主爱 + 小冰 · 音乐发布会,向外界展示了小冰在音乐方面的进展。 

为了能够让小冰在音乐方面有更好的表现,微软特意邀请了马来西亚歌手朱主爱(Joyce),来作为小冰的实习产品经理。在朱主爱进入到微软小冰团队之后,小冰团队借鉴了她的一些好的想法和建议,把小冰唱歌的模型进一步进行了优化,情感表达上面都有了突破和进展。

就小冰唱歌这件事情来讲,它的意义一方面在于可以更好训练了其情感表达能力,另外不可忽略的是一项是,这也让小冰具备了相对不错的发音能力,从而为未来硬件落地打下了基础。


落地 Yeelight 语音助手

14448 人参与,筹集金额 2875152 元,完成度 722%,Yeelight 语音助手在小米众筹交出了这样的成绩单。它的特别之处除了以上这些漂亮的数据之外,更重要的地方在于其让微软小冰第一次拥有了实体形态。

此次微软小冰带来了许多此前没有的新特性,包括完整的智能家居设备控制技能、一次唤醒小冰后即可进行连续对话(不再需要唤醒词)、比以往更加人性化的情感和同理心能力、独特的「小冰姐姐」模式。

坦率来讲,小冰实现落地是一件意料之中的事情。而为什么会选择与小米米家合作,推出 Yeelight 想要实现怎样的目的,成为了我与李笛第二次对话的焦点。

其实过去的智能家居设备有很多测试环节,但实际上,有些用户常用的命令可能只有固定的几个。与诸如智能音箱等设备有所不同的地方在于,微软小冰希望通过 EQ 的方式,去和用户建立起一种默契。 

「目前为止,包括美国和中国在内,我们还没有见到一款设备,是因为这款设备里面的 AI 而成功的。AI 在这个过程中,往往变成了设备的卖点,完成硬件销售就成功了。实际上在我们看来,这还是一个云交互的一种形势。」

此次联合小米生态链推出 Yeelight 语音助手,更多的是想要为行业带来一些不一样的东西,让人工智能成为真正的核心,来帮助设备从销量到实际使用体验都变得更完善,而不再只是作为一个卖点。让设备里面的 AI,不要沦为一个命令的操作员,而是像家庭成员一样,在李笛眼中是比较重要的。 


更加自然的全双工语音交互感官

其实我对于此次小冰所具备的智能家居设备控制技能、更加人性化的情感和同理心能力以及独特的「小冰姐姐」模式这三项功能并不感到意外,而真正值得关注的地方是其一次唤醒可进行连续对话。 

要知道,目前包括智能音箱在内,绝大多数语音控制设备都采用了「一问一答」的交互方式。理由也很简单,这样的方案允许设备在技术并不足够成熟的前提下,依旧能够可以相对不错的识别准确度。

但这样的人机交互方式所存在的不足之处在于,其并不符合人们自然的交互习惯。从某种角度上来说,即便是它在准确度和回馈速度上都做到了接近完美,但可能也还是更多地停留在「工具」的层面,并非人们理想中人工智能该有的模样。

而对比来看,搭载了微软小冰的 Yeelight 可以实现对话像河流一样不间断进行,在语音交互方式上显然要更自然一些,微软称之为全双工语音交互感官。

不顾想要实现近乎于人与人之间的交流方式,显然并不是一件容易的事情,在前几天的媒体沟通会上,小冰团队也对这背后部分技术特征进行了披露。

首先在基础框架上,微软没有选择面向单个任务的的 Turn-oriented,而是采用了面向对话全程的 Session-oriented。

同时在实际的人机交互过程中,小冰所采用的全双工语音交互技术,在包括边听边想、节奏控制器、对声音场景的理解以及自然语言理解与生成模型等多个维度上进行了探索。 

首先它建立了一套预测模型,来实现边听边想。简单来讲,小冰会提前预测你想要表达的完整意思,从而实现更快的响应速度和改口能力。同时在回答你所提出的问题时,可以实现动态回应,通过有选择的将回答分成多段,来减少你的等待时间。

另外,为了让小冰在与人类的对话过程中可以更好的掌握时机和重要内容,它也设置了节奏控制器。当然,人与机器交互时需要它能够很好的实现对声音场景的理解。比如识别你的性别、对指令的正确识别等等。

还有一个重要的技术特征是,小冰拥有自然语言理解与生成模型,从而实现更好的容错性以及基于整个对话对上下文的理解。

综合来讲,在语音交互方式上,微软选择了一条短时间内可能并不容易获得明显效果,但上限更高的技术路径。不难想象的是,未来随着 Turn-oriented 框架走到极致而无法更进一步的情况下,也会有越来越多语音平台加入到这个行列中。

但显而易见的是,早先一步开始布局 Session-oriented 框架的微软已经领先了半个身位。从长远来看,其将获得更高的收益。

回过头来看小冰这个平台,正如我们前边提到的,虽然就目前而言它的整体体验并不那么完美,但其成长上限非常高。一旦未来各方面走向成熟,这个平台或许将最早成为我们理想中的人工智能。

(头图来自视觉中国)

最新文章

极客公园

用极客视角,追踪你最不可错过的科技圈。

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

顶楼

关注前沿科技,发表最具科技的商业洞见。