360 搜索的思考:从搜索到 AI 对话

摘要

Ai 对话是一种人机交互方式,人和机器展开人和人之间这种自然的交流,人们平时使用的搜索实际上就是一种人机的交流。

以下内容根据「360 搜索技术总监」魏少俊 在极客公园 2016 奇点·创新者峰会 AI 论坛上的演讲整理而成。更多相关信息请关注:singularity.geekpark.net。


 AI 对话是一种人机交互方式,人和机器展开人和人之间这种自然的交流。人们平时使用的搜索实际上就是一种人机的交流,当在搜索框输入查询词,搜索引擎会分析你输入的语义,判断意图,判断最匹配你需求的结果,并向你推荐精准答案,这就完成了一段和搜索引擎的对话。

搜索对话与 AI 对话存在很多不同,在搜索场景下,用户对话输入实际上是通过在搜索框中输入一句话,一次性解答。而在 AI 场景下,用户输入更加口头语化,口头语比书面语更复杂,所以它的处理难度会更大。同时,由于口头语的碎片化特点,很多时候需求在第一时间提出时,可能不一定一次性把意图都表达完整。

AI 交互方式的三个类别

魏少俊认为从技术角度来讲,可以把 AI 对话分成三种方式:功能型交互、内容型交互和开放型交互。

捕3.PNG

1. 功能型交互

功能型交互、也叫命令型交互,表现为用户向机器下达指令,例如:「帮我把灯打开」,在这种情景下,通常口头表达的能力是有限,不会有太多复杂的指令内容,这个是相对来说最容易实现的方式。

2. 内容型交互

第二种叫内容型交互,也叫知识型交互,例如向机器人下达指令说「给我讲一个《小红帽》的故事」,或询问「北京到上海距离多远」。这个里面需要有海量的网页抓取技术,网页筛选技术等等支撑这样的应用。

3. 开放型交互

第三是开放型交互,也叫闲聊,用户表达在非常庞大的语言空间上,甚至有些问题没有答案。比如说一个用户告诉你我今天摔倒了,这个时候没有答案的,机器需要分析用户表达的情感,然后适当给出安慰。

归纳下来,在 AI 对话里面,我们 AI 对话引擎需要具备哪些能力。第一个是对用户口头表达的理解能力,第二是需要强大的知识库在此基础上的应答能力。

捕获4.PNG

AI 对话要求的技术模块

AI 的对话要求需需要的技术模块一共有 4 个部分,第一部分是语音识别。语音识别相对来说目前技术比较成熟;第二部分是语义识别;第三块是云计算,AI 需要庞大的计算支持;第四是我们基于 360 搜索大数据的海量语料训练。

捕获44.PNG

语义识别需要用到基于上下文的自然语言理解技术。这里面大概分 5 个部分,第一部分是意图识别,根据用户输入明确理解所要查询的问题,或者对话意图,然后在意图基础上做解答。

第二叫情感识别,识别对话里想表达的某种情感,在开放式聊天主要用到情感识别这个技术,包括分析用户是高兴还是愤怒,或者悲伤等等,大概有 21 个情感。

第三个叫指代消解和省略恢复,比如说用户提起一个问题,上海的天气怎么样?」这个时候机器回答,用户再接着一句,「北京的呢?」这个时候用户已经把北京天气怎么样几个字省略了,机器就需要结合上下文再做进一步回答。

第四是意图澄清,比如说用户说想看蓝莲花,这个时候需要区分用到底是蓝莲花的图片还是书籍,进而发起询问并进一步确认。

 第五部分叫拒识判断,如果用户超出机器的范围,如果用户问的问题是涉及到一些反动的,色情的问题,这个时候机器也不能够回答。

魏少俊-360 搜索技术总监1.jpg

在应答层面,存在一个叫「多轮对话」的技术。用户意图如果需要多次对话才能表述完整,机器要区分出这个意图对话边界,用户表达意图从哪句话开始到哪句话结束。通常来讲我们判断一个意图起始的时候,我们基于当前用户表达这句话跟上一个意图之间,也就是跟上一个多轮对话之间有没有相关性,如果没有相关性,我们认为这是新的对话的开始。

用户在多轮对话的时候,可能因为口头表达失误,导致对用户的理解出现偏差,这个时候机器需要有一个纠错的机制,如果缺少一个机制,可能用户在说完很长的,就某一个意图进行很长对话之后,可能对用户的意图视做一个新的意图,这样用户体验非常糟糕。

所以在多轮对话里面需要一个智能的、能给用户进行一个确认和感受的机制,比如当用户说了半天,到最后机器会重复表达问一下,您说的是这个意思吗?如果用户说是,多轮对话继续,如果不是,再重启一个新的对话。

 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。