搜狗同传:用 3.0 技术撬动 AI 语音市场更大版图

摘要

先爬再走后跑,可以形象地概括为搜狗同传的技术路线演进图。

「语言是人工智能皇冠上的一颗明珠」,王小川如此比喻。

从输入法到搜索引擎,表达信息和获取信息被搜狗汲取到了产品发展脉络中。向 AI 时代跨越的搜狗,产品需要以新技术和新形态来承载。

而在 AI 商业化落地的进程中,搜狗以自然交互和知识计算分别作为横轴和纵轴。横纵交汇处,便是搜狗在 AI 语音技术和产品的布局。在已成型的项目中,有一个产品显而易见,那就是「搜狗同传」。

在中国,从事同传工作的,大多数是英语专业背景,精通全领域是充分而非必要条件。而面对涉及医疗、数学和物理等领域的会议时,同传人员并不能很好地将这些相关术语准地翻译。

当学术盲点变成了行业痛点,以语音智能见长的科技公司便主动出击,抓住了同声传译这一细分市场的机遇。迭代到 3.0 版本的搜狗同传,已在逾千场大型会议上登场。

搜狗认为,机器同传的产品价值,主要体现在其致力于解决跨语言交流、跨语言信息获取和语言表达的电子化记录等障碍。若要真正实现这三点,不能单纯地把语音识别和机器翻译做嫁接,而需要一套完整的「有机系统」。

        搜狗同传产品的迭代轨迹

从语音到机器视觉

作为业内首个商用机器同传的产品,搜狗同传的初始版本要追溯至 2016 年 11 月。

「在测试级的准确率波动比较大」,这是内部对搜狗同传 1.0 的客观描述。比如领域、口音、中英文混杂等因素,都是导致同传输出的内容出现极强不确定性的原因。「只有(演讲者)字正腔圆时,准确率才达到 95% 到 98%,其他时候可能只有 80%,」搜狗 AI 交互技术总监陈伟如是说。

三年后,同样的舞台,相近的时间,搜狗同传进化到了第三代。对比初代版本,「其识别能力越来越强,错误率越来越小,稳定性越来越好」,这是团队给出的全新评价。

早期同传产品之所以收效甚微,恰恰是没有很好地搭建其这套系统模型。陈伟指出,传统的同传产品掣肘于通用模型,在会议同传场景下,一旦涉及专业领域的内容,机器同传的效果和准确度就远不及人工同传。

搜狗同传 1.0 发布以来就陷入了瓶颈。每逢重大场合,陈伟和团队就忐忑不已。归根到底,是担心效果不好。为了加速商用化进程,团队连带推出了「个性化私人定制」的服务,就是投入人力,针对演讲内容做优化。

在推进的过程中团队发现,由于很难把所有演讲人的 PPT 和材料收全,导致所谓的「个性化定制」很难在会前完成。当产品上了试炼战场,疲于应付的「下下策」总不是长久之计。况且,一家科技公司不应受困于技术。

顺着个性化定制的思路,团队在琢磨:「如果把接口开放给用户,事先上传演讲稿或重点内容会不会好一些?」实现这一点不难,单仍旧谈不上进步。要知道,大会演讲通常是来也匆匆,去也匆匆,嘉宾上阵 PPT 马上跟播,不可能有充裕的时间来完成私人定制。

趔趄之中,倒逼着搜狗同传的技术团队研发更智能、更敏捷的同传系统,让机器自觉地定制语境,摆脱人工干预。

「原来我们以为,人工同传只是戴着耳机去听演讲者在讲什么,」陈伟后来了解到,同传的过程不是全程无材料的「裸翻」。同传师坐进全玻璃的同传箱之前,需要提前准备一到两天的时间,了解活动当天的全部背景资料。

以往的机器同传,仅仅是通过语音技术来识别讲述内容。而搜狗同传 2.0 的产品启发,实际上借鉴了人工同传的流程。在同传的过程中,除了做好语音识别以外,团队意识到,视觉信息同等重要。

实际上,」每个演讲者都有一套自己的话语体系,」陈伟指出,基于搜狗同传 2.0,团队引入 OCR 技术,通过摄像头或数据线来捕捉 PPT 内容,算法实时在后端分析 PPT 的核心关键词,搜狗同传 3.0 的就绪度已完成了 50%。

         识别翻译协同模块进化前后的语句对比


多模态+知识图谱=语境引擎

当自动化定制成为过去式,最新发布的搜狗同传 3.0,内核进化成为了「语境引擎」。除了「语音信息+OCR」的结合方式,升级后的产品,最大亮点是在「能听会看」的多模态基础上,注入了思考和推理能力,背后靠的是知识图谱的加持。

从机器同传的流程来看,当机器视觉捕捉到核心关键词之后,会根据搜狗的知识图谱技术,把相关的词汇以及专业领域相关的词语拓展出来,作为语音识别和翻译的加强。

这一点非常重要。通过语境引擎构建的个性化知识,团队在某一专业论坛做了测试评估,结果显示其识别准确率提升了 21.7%,翻译正确率提升了 40.3%。补足了上一代从 PPT 获许不到太多关键词的短板。

从搜狗同传 3.0 在某论坛的的评测效果来看,满分为 5 分,人工同传得分 4.08,搜狗同传 2.0 为 3.41 分,搜狗同传 3. 为 3.82 分。「这说明这说明 3.0 的系统距离人工同传的水平更加接近,它更像一个专家和内行一样,去解读和翻译大会,」陈伟表示

以搜狗同传 3.0 实际应用效果为例。案例一的背景是围绕阿尔法狗和李世石的人机大战。「投子」是一个围棋术语,没有语境的前提下,2.0 版本会把这一词汇识别为「投资」,但 3.0 版本可以根据 PPT 的内容,拓展出「投子」的术语。

类似的案例还有「罗辑思维」。搜狗同传 2.0 的系统没有办法捕捉语境信息去做优化和增强。3.0 版本,系统根据罗振宇的知识图谱做拓展,自动判定跟他密切相关的是「罗辑思维」,而不是「逻辑思维」。

值得一提的是,3.0 版本在英文词汇方面,对观众更加友好。例如在医学领域,「INI」对应的是「国际神经科学研究所」的中文译称。以往,机器同传的结果会直接显示「INI」,普通听众很可能不太清楚其具体含义,基于机器对知识图谱进行拓展查询,在搜狗的专业中英文知识库中,就可以找到与之相应的中文解释。

        语境引擎是搜狗同传3.0取得突破的关键


2B 最终落向 2C

「我们认为未来面向人和机器交互过程中,一定是多模态的」,搜狗提倡的技术主张,使机器同传和同类产品拉开了一代之差。「他们还是以同传为主,我们已经从语音跨到了多模态,并把对于知识和语音的理解放进去,使同传开始具备一定的认知能力。」

必须要承认的是,无论是搜狗同传还是其他玩家,大家目前距离顶级同传的水准还有很长的路要走。虽然真正到金字塔塔尖的同传人才十分稀少,但陈伟认为目前的机器同传能力和顶级人工同传相比,仍存在不小的差距。

显然,针对极高规格的会议场景,现阶段的机器同传还达不到要求。不过在复杂要求不高,辅助观众和听众跨语言交流的用途中,其发挥的作用愈发明显。因此,行业应该要抱着向人工同传学习的态度,「而不能说今天六级,明天八级,后天机器超越人工了,这不是特别好的心态。」

除了大会演讲这种 2B 同传场景,未来,机器同传可向记者采访、跨国办公会议、中英文视频直播、字幕翻译等场景延展。这些应用场景最主要的挑战,是怎么保证机器同传的稳定效果,考验的是采集设备、网络环境、识别能力等。「预计迭代到 3.5 的版本,技术沉淀后的能力,就可以向这些场景做覆盖了。」

尽管搜狗通过技术迭代不断地教育市场,不过机器同传并没有在过去一两年迎来爆发,搜狗同传也并没有通过大会获取收入。其中很重要的因素在于,「跨代跃进的效果提升,需要一个研发周期,在这个过程中不能盲目地向 B 端市场狂推。」陈伟明确指出,搜狗同传更多的是代表了搜狗在 AI 方面的核心竞争力和技术驱动创新上的成果,所以「不会是一个很赚钱的行业」。

而搜狗在 AI 语音商业化的进程,最终的指向还是 2C。陈伟预判,未来各种各样的场合都可能用到搜狗同传的技术,通过同传打磨的能力也可以反向用于搜狗的 C 端产品。「我们希望以搜狗同传在大会场景和 B 端的经验、数据为基础,不断打磨 2B 输出的能力,最后反哺到 2C 端的市场中。」

责任编辑:卧虫

图片来源:VPhoto、搜狗

最新文章

极客公园

用极客视角,追踪你最不可错过的科技圈。

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

顶楼

关注前沿科技,发表最具科技的商业洞见。