为了让机器能和人更好的聊天, Google 都做了什么 ?

摘要

如果未来机器人注定要崛起,那自然语言处理能力的突破无疑至关重要。

自然语言处理,又称 NLP(Natural language processing),是目前以及未来 AI 领域最重要的基础技术之一,主要是在机器学习的基础上结合语言学和统计学在自动化服务中对语言进行建模。说的直白一点,NLP 就是关于人和机器如何互相理解、机器如何更懂人类的关键。

作为目前 AI 最主要的两个分支领域,NLP(自然语言处理)和 Computer Vision(计算机视觉)分别代表了人类尝试让机器理解世界的两个纬度,也是目前人工智能领域发展最快的两个分支。伴随国内外各家智能音箱和语音助手的出现,NLP 一时间成了众多科技巨头正面交锋的 AI 主战场。

自然语言处理到底如何一路走来、最终又将会让机器和人之间的关系走向哪?作为在 NLP 领域投资最多的公司,Google 或许是最有发言权的。

消除语言障碍,Google NLP 的第一个任务

在 Google 的概念中,语言不应该是人类沟通的障碍,更不应该是使用网络的阻碍。

Google 研究项目总监 Linne Ha 告诉极客公园,Google 的使命在于汇总全世界的信息并使其能够被普遍获取和使用,而破除语言障碍就成了其中的关键。消除语言造成的隔阂,这些年来始终是 Google NLP 团队的主要任务之一。这种消除并不止停留在翻译层面,语言处理(文本分析、生成、对话等)、音频处理、手写识别等都是 Google 正在着眼解决的问题。

目前世界上有 6000 种语言,这其中超过 100 万人使用的语言就有 400 种,还有很多小众的方言。但现在的互联网主导语言依然是英语,全世界大约 50% 的网络内容都是英文的。让全世界的人都能成为互联网的受益者,不被语言的差异所阻碍,这正是 Google Bringing Everyone Online 计划的伟大设想。

「统一码」和「不要豆腐」字体,它们是 Google 完成这件事的第一步。

Unicode(统一码)是计算机的标准字符编码,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求,谷歌一种都在鼓励更多的国家和地区放弃使用非 Unicode 的字体。

除此之外,很多时候当电脑和手机等设备在对文本进行渲染,如果设备上没有相应的字体,就会出现空白方块字符,这些方块看起来就像豆腐一样。针对这种情况,Google 开发了一款叫做 Noto 的字体(Noto 就是 No Tofu 的缩写),它几乎兼容所有语言,并且提供统一的风格,以此来消除文字在不同设备上渲染出现的空白方块(Tofu)。

(图片来源:techtolead)

当呈现方式的障碍消除之后,信息的输入就成了下一个需要解决的问题。而机器学习的介入,开始让人与机器之间的信息交互方式发生了变化。

手写和语音是谷歌在键盘之外赋予机器的信息接收方式,这个在普通用户看起来顺其自然的演进,背后其实是一个不小的工程。

不管是手写还是语音,共同存在的一个问题是个体差异。很多时候,就算是同一种文字、同一种语言,也会因为不同的人而带上不同的口音和不同的笔迹。面对这个问题,Google NLP 收集了大量书写样本和语音样本,并利用机器学习从这些样本中学习去辨认笔迹和口音。

早在十年之前 Google 就有了语音搜索的设想,并且在 2007 年 Google 想出了通过提供 GOOG-411(Google Voice Local Search) 的服务来收集数据。这个全自动的语音识别搜索服务很受欢迎,也很快帮助 Google 根据这些询问的语音建立了一个大型数据库。经过这些高质量的语音搜索数据训练,一年之后,语音搜索就足以在智能手机上启动了。

之后 Google 又通过在世界各地的大量采集,扩展了 50 种其他语言的语音搜索能力,让全世界数百万人可以以更低的门槛使用上互联网。

神经网络,NLP 的跃迁筹码

DNN(深度神经网络)的加入,让 Google 的语音交互技术上升到了一个全新的高度。

2012 年 Google 正式开始运用深度神经网络,这项技术在一开始就让语音识别能力提高了约 25%,且之后 Google 不断在优化算法,让这种识别率的提升效果始终保持着强劲的增长。同时,机器学习的能力提升也让 Google NLP 的能力有了大幅度的提升,能够更好的理解人类的句子。

目前,Google 通过这些技术提供了 30 多种语言的语音输入支持,涵盖超过十亿人。其中个一典型的使用场景就是的 Gboard 输入法和 Google 语音搜索,这些 App 提供了 119 种语言的支持,包括 11 种印度语,3 种印度尼西亚语,甚至包含了 2 种非洲最重要的语言——斯瓦希里语和阿姆哈拉语。

Google 的团队从多年的数据收集中得出了一套高效低成本的方案,通过和同一地方的人用多语言进行沟通,用更少的数据建立了更好的语言模型。

在解决了基本的沟通问题之后,Google NLP 也开始在更多领域释放自身价值,其中最典型的两个场景就是翻译和 AI 语音助手。

谷歌在 2016 年 9 月正式推出了整合神经网络的翻译工具——GNMT(Google Neural Machine Translation)谷歌神经机器翻译系统,这一翻译技术的运用正是 Google 在 NLP 领域技术演进的一次直观体现。这种将整个句子视作翻译单元的方式,对句子中的每一部分进行带有逻辑的关联翻译,翻译每一个字或单词时都包含着整句话的逻辑。


在专访中 Linne Ha 也告诉极客公园,NMT 对于 SMT 更多是一种互补的关系,并没有绝对的优劣之分,他们各自在不同的情况下有着各自的优势。NMT 的出现弥补了之前 SMT 能力无法覆盖的长句翻译和复杂逻辑翻译等问题。

智能语音助手 Google Assistant 则是 Google NLP 技术目前最核心重要的运用。早在 2012 年的安卓 4.1 和 Nexus 手机上谷歌的智能语音助手就以 Google Now 的形式和用户见过面了。

当时的 Google Now 正是使用 NLP 技术完成与用户交互,而后通过 Web 服务来进行问答、提供建议、完成服务等动作。而从 2016 年开始,具有更强大 NLP 处理能力的 Google Assistant 就开始逐步取代 Google Now,帮助用户在手机上完成更复杂的语音交互指令。


Google NLP 技术水平直接影响着 Google Assistant 的能力范围,所以当 NLP 技术通过机器学习在长期的语音输入、语音搜索训练和积累后,逐渐能够掌握对话能力,而不再只是单纯的简单指令处理能力。

这时的 Google Assistant 也开始变得越来越全能,它能够从对话中学习积累对自然语言的语意、逻辑的理解能力,并不断优化。

NLP 的机遇和挑战

NLP 或许不会有一个确切的尽头,因为自然语言始终都在演变,而自然语言处理技术需要不断去适应这种变化。

虽然目前的 NLP 技术无论是在算法还是数据结构上都还没有达到极限,但限制它的可能并不是只是算法和数据,而是无法预测的语言习惯的变迁,以及不断出现的新词汇,以及旧词汇的新用法。在专访中 Linne Ha 也告诉极客公园,目前的 NLP 最大的挑战在于如何运用运用算法,更快的从有限数据中学习和适应语言习惯的新变化,并及时做出调整。

同样的,机器翻译也绝不会完全取代人类,因为除了语言动态变化的影响,数据量和算法同样是需要解决的问题。目前能够被利用的数据的规模相较于整个人类文明的语言储备来说实在太小,即使是 Google 也依旧面临相同的问题;同时,即使有朝一日真的拥有了整个人类文明的语言知识库,现有的算法和计算能力也难以完成如此庞大的数据训练。

所以,将来 NLP 可能并不一定能够想一个真实的人一样和我们进行对话,最终它或许更可能扮演一种高级辅助的角色,成为我们语言体系的一部分。

不过,NLP 在未来却有可能也会对人类的语言习惯产生一些影响,比如多语言的使用习惯,一个人可能会拥有正式和非正式两种语言习惯。

而当极客公园问到如今的新兴创业公司在 NLP 领域还有哪些机会时,Linne 毫不犹豫的说出了「Assistant」,在她看来,现在语音智能助手的市场有太多太多未被填补的空白场景。

另一个机会则隐藏在像广东话这样的特殊语言中,这些语言中存在很多无法被转化为书面文字的口头语,这类口头语对于需要先将语音转化为文字,从而学习并理解的 NLP 技术来说是一个亟待解决的关键问题。所以,NLP 未来的机会很可能就隐藏在「beyond text」(超越文本)的语言学习技术上。

总体而言,语言是使互联网更具包容性的关键所在。而语言对于下一个无所不在的计算时代是至关重要,为了让我们真正处于未来时代的数据环境中,我们需要能够自然地与计算机交谈,让计算机了解我们。而这不应该只是使用英语的少数人的特权,而是所有人都应该享有的人工智能时代的福利。

而让机器更好的做到这一点,正是 Google NLP 的目标和使命。

(责任编辑:王伟)

打开极客公园App阅读更多内容

最新文章

极客公园

用极客视角,追踪你最不可错过的科技圈。

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

顶楼

关注前沿科技,发表最具科技的商业洞见。