或许用不了多久,我们就不需要花钱翻译了

摘要

或许有一天,计算机可以完全代表人工翻译,真到了那一天,计算机应该就已经学会如何像人类一样思考了。

利益相关:作者系某高校翻译系毕业生

多样的语言让我们的世界更加丰富多彩,但也给交流带来了很多的障碍,为了突破语言障碍,人类一直在做着不懈的努力。

1987 年,波兰籍犹太人柴门霍夫博士(Łazarz Ludwik Zamenhof)在印欧语系基础上创立了世界语(Esperanto),旨在消除国际交往中的语言障碍。但后来证明,由于没有历史和文化的支撑,所谓的世界语也不过是一具空壳。

189291665_medium.jpg

既然一种语言不行,那就只能指望翻译了,但人工翻译要付出巨大的人力资源和时间成本。不过随着信息技术的发展,科技似乎有着在未来取代人工翻译的势头。

机器翻译——从潜力无限到被判死刑

很多人刚开始学英语时会有这样一种想法:英语和汉语之间是有一定的规律的,如果我能学会这些规律,那我就可以很快学好英语啦!随后我们会发现,这两种语言之间的差别是远非几条规律可以概况的。不过,机器翻译(Machine Translation,即 MT)刚开始就是朝着让计算机「学会规律」这个方向发展的。

机器翻译的概念可以追溯到上世纪三十年代,来自俄国的一名学者 Petr Smirnov-Troyanskii 提出了「自动翻译系统」的想法,他认为这个系统需要三个步骤:第一步是根据语法规则把要翻译的内容拆分成一个个「基础」的元素,比如说把「我想你」这句话拆分成「我」、「想」、「你」三个元素; 第二步是通过词典,把每一个「基本元素」对应地翻译出来,比如说「我」、「想」、「你」对应的英文是「I」、「miss」、「you」;第三步是对上一部翻译出来的内容进行必要的修改以符合语法结构。

9c0dccb3ff15e8a8c868430090e3fb43.jpg

世界第一台计算机 ENIAC

随着现代计算机的问世(1946),计算机很快被用到了语言翻译中。1947 年,数学家 Warren Weaver 给计算机专家 Norbert Wiener 写了封信,提出了使用计算机进行翻译的想法。两年后,Warren Weaver 把他的想法正式发表了出来,随后美国多所大学启动了机器翻译项目。

机器翻译的第一个重大进展发生在 1954 年,IBM 和 Georgetown University 共同展示了一个机器翻译项目,随后其他机构也纷纷展示了他们自己的机器翻译模型,这一时期机器翻译的原理基本都一样:通过「查词典」,把句子中每一个小部分翻译出来,然后再定义一系列的「规则」,把翻译出来的内容进行修改以符合语言规则。

这种方法应付非常简单的句子还行,句子结构稍微复杂点就要乱套了,毕竟一个单词常常对应多个含义,而且两种语言之间的语法结构常常有很大的区别。为了提高机器翻译的准确性,人们就需要定义非常非常多的「规则」。

没过多久,人们逐渐意识到定义「规则」这条路有些行不通,因为语言的随机性太大了,无法像定义数学公式一样来「定义」语言应该如何翻译。1964 年,美国政府成立了 ALPAC(自动语言处理咨询委员会)来评估「费用昂贵」的机器翻译的进展。两年后,ALPAC 发布调查报告、表示机器翻译「速度慢且效率低下,成本是人工翻译的两倍,不值得继续投资。」

虽然这份报告在当时争议性很大,但在随后相当长的时间内,机器翻译的发展陷入了停滞。在机器翻译的初期,科技不仅没有取代人工译员,反而由于机器翻译的局限性,侧面提高了译员的地位。

不过十几年的机器翻译的研究也并不是一无是处,计算机词典、翻译数据库等概念都是这段时间提出的,随后这些工具在另一个方面发挥了巨大的作用。

计算机辅助翻译——站在人和科技的十字路口

计算机辅助翻译的英文名是 CAT(Computer-Aided Translation 或 Computer-Assisted Translation),它的发音是 [kæt](就是喵的英文单词的发音)。既然计算机无法取代人工译员,不过它好歹可以给译员帮帮忙吧?这就是计算机辅助翻译(CAT)的核心理念。

在机器翻译中,计算机是核心,人们试图通过给计算机加入足够多的数据,让计算机「学会」翻译,而在计算机辅助翻译,「人」才是中心,计算机是用来帮助译员提高效率的。在计算机辅助翻译中,人们把之前译员翻译的质量较高的内容收集起来,然后把整篇的翻译内容做成一条条双语对应的形式(如下图)。

tm.png

翻译记忆(TM),来自 Wordfast Pro

这一条条的双语(有时候是三种甚至更多的语言)对照形式就叫做翻译记忆(Translation Memory,即 TM)。在进行人工翻译之前,计算机辅助翻译软件可以先从设定好的翻译记忆(TM)中查找之前已经被其他译员翻译过的内容,如果在翻译记忆中找到相匹配的,译员就不需要再重复翻译做无用功了。如果翻译记忆库和需要翻译的内容重合率较高,使用计算机辅助翻译就可以大大降低译员的工作量。

除了翻译记忆(TM)之外,还有用于辅助专业名词翻译的术语库(Term Base,即 TB),以及用于在 TM 和 TB 中进行精细查找的词语检索(Concordancer)。

可以看出,计算机辅助翻译是通过计算机的运算能力,利用之前已经翻译过的内容来帮助译员提高效率。现在,几乎在所有的翻译公司都会使用 Trados 等计算机辅助翻译(CAT)软件。在翻译商业合同、产品说明书等材料时,由于这些材料本身的模式比较固定且要求同一名词在上下文的翻译要绝对一致,使用计算机辅助翻译软件甚至比全人工翻译的效果更好。

机器翻译的变革

在计算机辅助翻译在译员流行的过程中,机器翻译也在悄然发生着变革。

上面我们说过,由于语言的随机性太大,所以无法定义足够多的规则还让电脑「学会翻译」,可如果把语言缩小到一个特定的范围内呢?比如说在使用中文播报天气预报时,播报员所用到的句型和词汇都是相对固定的,理论上我们可以定义一定数量的规则,让计算机「学会」准确地翻译天气预报。这类限定范围内的机器翻译系统有很多,Systran 是早期这类工具的代表,它专门用于把法语的天气预报翻译成英语。

9186DEA94EED3185A8FDD1B945E33F81.jpeg

除此之外,人类创造「通用性」翻译工具的尝试也一直没有停止。Google 翻译就是此类翻译工具的代表,截止到去年底,Google 翻译支持的语言已经超过了 90 种。和之前大多数翻译工具基于规则的翻译方式不同(rule-based translation),Google 翻译是「基于统计的机器翻译」(statistical machine translation),Google 翻译的官方微博中曾这样解释它的翻译原理:

「Google 翻译采取了一种不同的方法。我们并不教给电脑所有的语言规则,而是让电脑自己去发现这些规则。电脑通过分析经过人工翻译的数以千万计的文件 来发现其中的规则。这些翻译结果源自图书、各种机构(如联合国)以及世界各地的网站。我们的电脑会扫描这些语篇,从中寻找在统计学上非常重要的模式——即 翻译结果和原文之间并非偶然产生的模式。一旦电脑找到了这些模式,今后它就能使用这些模式来翻译其它类似的语篇。」

简单来说,Google 收集了大量的人工翻译的文档,然后对这些文档进行统计分析,构建出翻译模型,来让计算机「学会」翻译。

shutterstock_290526491.jpg

由于缺乏人工干预,Google 翻译的结果会不可避免地出现一些错误和不准确的地方。但很多时候我们并不需要特别准确的翻译,比如说去国外网站购物时,我们只需要大概知道每件东西大概是什么并且找到下单的地方就足够了,这时候 Google 翻译完全可以满足我们的需求。除此之外,现在甚至不少专业译员也会把 Google 翻译的结果作为参考,以提高翻译速度。

科技正在让翻译失业

随着科技的发展,它会不会最终让翻译失业呢?

其实现在计算机已经在很多方面替代了译员:随着计算机辅助翻译的发展,译员不用把时间浪费在一次次做无用功上面,在工作量不变的情况下,需要的人工译员自然也就变少了;而在不需要精确翻译的场景下,即便周围没有译员,Google 翻译等机器翻译工具让我们在面对完全不懂的语言时也不至于完全茫然。

20150226141406_ZdnFH.jpeg

不过在更多的时候,我们希望看到的是译员用心的翻译,而不是计算机用数据和算法「合成」的翻译。比如看美剧时,我们会为一句精妙的翻译而会心一笑,这种感觉是机器翻译无法带来的。

或许有一天,计算机可以完全代表人工翻译,真到了那一天,计算机应该就已经学会如何像人类一样思考了。

本文部分内容参考了 Machine Translation and Computer-Assisted Translation

打开极客公园App阅读更多内容

最新文章

极客公园

用极客视角,追踪你最不可错过的科技圈。

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

顶楼

关注前沿科技,发表最具科技的商业洞见。