360 搜索的思考：从搜索到 AI 对话

以下内容根据「360 搜索技术总监」魏少俊在极客公园 2016 奇点·创新者峰会 AI 论坛上的演讲整理而成。更多相关信息请关注：singularity.geekpark.net。

AI 对话是一种人机交互方式，人和机器展开人和人之间这种自然的交流。人们平时使用的搜索实际上就是一种人机的交流，当在搜索框输入查询词，搜索引擎会分析你输入的语义，判断意图，判断最匹配你需求的结果，并向你推荐精准答案，这就完成了一段和搜索引擎的对话。

搜索对话与 AI 对话存在很多不同，在搜索场景下，用户对话输入实际上是通过在搜索框中输入一句话，一次性解答。而在 AI 场景下，用户输入更加口头语化，口头语比书面语更复杂，所以它的处理难度会更大。同时，由于口头语的碎片化特点，很多时候需求在第一时间提出时，可能不一定一次性把意图都表达完整。

AI 交互方式的三个类别

魏少俊认为从技术角度来讲，可以把 AI 对话分成三种方式：功能型交互、内容型交互和开放型交互。

1. 功能型交互

功能型交互、也叫命令型交互，表现为用户向机器下达指令，例如：「帮我把灯打开」，在这种情景下，通常口头表达的能力是有限，不会有太多复杂的指令内容，这个是相对来说最容易实现的方式。

2. 内容型交互

第二种叫内容型交互，也叫知识型交互，例如向机器人下达指令说「给我讲一个《小红帽》的故事」，或询问「北京到上海距离多远」。这个里面需要有海量的网页抓取技术，网页筛选技术等等支撑这样的应用。

3. 开放型交互

第三是开放型交互，也叫闲聊，用户表达在非常庞大的语言空间上，甚至有些问题没有答案。比如说一个用户告诉你我今天摔倒了，这个时候没有答案的，机器需要分析用户表达的情感，然后适当给出安慰。

归纳下来，在 AI 对话里面，我们 AI 对话引擎需要具备哪些能力。第一个是对用户口头表达的理解能力，第二是需要强大的知识库在此基础上的应答能力。

捕获4.PNG

AI 对话要求的技术模块

AI 的对话要求需需要的技术模块一共有 4 个部分，第一部分是语音识别。语音识别相对来说目前技术比较成熟；第二部分是语义识别；第三块是云计算，AI 需要庞大的计算支持；第四是我们基于 360 搜索大数据的海量语料训练。

捕获44.PNG

语义识别需要用到基于上下文的自然语言理解技术。这里面大概分 5 个部分，第一部分是意图识别，根据用户输入明确理解所要查询的问题，或者对话意图，然后在意图基础上做解答。

第二叫情感识别，识别对话里想表达的某种情感，在开放式聊天主要用到情感识别这个技术，包括分析用户是高兴还是愤怒，或者悲伤等等，大概有 21 个情感。

第三个叫指代消解和省略恢复，比如说用户提起一个问题，上海的天气怎么样？」这个时候机器回答，用户再接着一句，「北京的呢？」这个时候用户已经把北京天气怎么样几个字省略了，机器就需要结合上下文再做进一步回答。

第四是意图澄清，比如说用户说想看蓝莲花，这个时候需要区分用到底是蓝莲花的图片还是书籍，进而发起询问并进一步确认。

第五部分叫拒识判断，如果用户超出机器的范围，如果用户问的问题是涉及到一些反动的，色情的问题，这个时候机器也不能够回答。

魏少俊-360 搜索技术总监1.jpg

在应答层面，存在一个叫「多轮对话」的技术。用户意图如果需要多次对话才能表述完整，机器要区分出这个意图对话边界，用户表达意图从哪句话开始到哪句话结束。通常来讲我们判断一个意图起始的时候，我们基于当前用户表达这句话跟上一个意图之间，也就是跟上一个多轮对话之间有没有相关性，如果没有相关性，我们认为这是新的对话的开始。

用户在多轮对话的时候，可能因为口头表达失误，导致对用户的理解出现偏差，这个时候机器需要有一个纠错的机制，如果缺少一个机制，可能用户在说完很长的，就某一个意图进行很长对话之后，可能对用户的意图视做一个新的意图，这样用户体验非常糟糕。

所以在多轮对话里面需要一个智能的、能给用户进行一个确认和感受的机制，比如当用户说了半天，到最后机器会重复表达问一下，您说的是这个意思吗？如果用户说是，多轮对话继续，如果不是，再重启一个新的对话。

AI 交互方式的三个类别

1. 功能型交互

2. 内容型交互

3. 开放型交互

AI 对话要求的技术模块

最新文章