依图进军语音识别，一个「后来者」如何刷新行业认知？

从新零售到物联网，从智能音箱到仓储机器人，人工智能赛道早已呈现出一片生机勃勃的景象，成为了一片承载着创业梦想，引领投资风向的「科技高地。」

国内国外都有众多业者抢先布局，并陆续取得了资本的青睐与客户的认可，并且在积极的拓宽自己的边界。以机器人视觉见长的人工智能企业依图科技就是其中的一员。

从 2012 年创立之初，依图就全面投入到人工智能技术的行业应用的研究之中，先后在安防、医疗、金融等多个领域，打造了一整套基于人工智能技术的行业解决方案，进一步向全行业宣传普及人工智能理念的同时，为数字中国的建设注入了智慧与活力。

凭借着前瞻性的行业判断，以及贴近人性，实用高效的产品矩阵，依图科技相继获得了真格基金、红杉基本、高榕资本、高瓴资本等知名机构的资金扶持，公司的估值预计超过了 150 亿人民币。与此同时，公司还在今年在新加坡设立了首个海外办事处，企图抢占东南亚的广阔市场，推进品牌的国际化运营。可以说依图已经成长为推动国内 AI 领域增长的重要一极，其一举一动都被认为可能左右 AI 发展格局。

12 月 11 日，依图科技在北京时间博物馆举办了「一场有声音的发布会」发布了依图语音产品，标志着在深耕已久的图像识别领域之外，语言智能成为了依图科技拓展技术边界的新据点。

在发布会上，依图科技首席创新官吕昊博士强调，当下虽然市面上搭载了语音识别技术的产品屡见不鲜，但实际上在消费者端的真实体验依旧参差不齐，这也导致了体现语音技术的实际性能依旧不透明，难以让语音的技术力高效无损的转变为产品力，这也成为了制约语音技术商业前景拓展的一大桎梏。

针对目前行业内尚未形成系统性的测试集与测试标准，同时缺乏体验与比较的工具，吕昊博士强调依图科技要致力于语音识别技术的商业落地与具体应用，公司层面树立了全面公开算法 API 接口、公开多样的测试数据集、以及公开可重复的评测结果等三大战略。

为了进一步彰显依图践行以上三大语音发展战略的诚意与决心，依图首席科学家吴双博士首次对外公布了依图内部的语音测试数据。据了解，其中测试对象包括了依图语音、讯飞听见、云知声开放平台、阿里一句话等众多语音技术业者，在混响、近远场、电话、普通话口音等多元场景下，针对公开与非公开的数据集，实施了从 10 月 20 日至 30 日为期 10 天的技术测试。

下面的是依图科技首席创新官吕昊博士

加上吕昊博士介绍道，字错率是业界用于衡量一款语音产品性能优劣的关键指标，业界普遍认为字错率低于 3% 时，语音体验不会影响可读性，而一旦字错率高于 15% 时，由于大量出现的错字、缺字、漏字等情况，会直接导致语音产品呈现基本无可读性的状态，替换成此次依图实施的技术测试正是采用了字错率这一评价指标。

官方发布的测试结果显示，在近场同时安静的理想环境下，依图语音产品的字错率维持在 3% 左右，其中在全球最大的中文开源数据库 AISHELL-2 中，字错率更是只有 3.71%，识别准确率高达 96.29%，领先其他业者约 17%，而即使是在远场演讲并伴有混响的环境下，面对测试难度较高的诸如清华大学研发的数据集时，依图语音产品的字错率也能维持在 15% 以下，保持基本可用的状态，综合下来，在多元场景下依图语音的平均字错率仅有 6.39%，在全行业处于遥遥领先的地位，不仅表明依图语音技术拥有良好的识别准确率，同时也彰显了依图语音的技术普适性。

吕昊博士表示，拥有了性能如此优异的语音普适技术积累的依图科技，希望继续延续先前在人脸识别领域的发展战略，打造技术开放平台，继续切实为广大应用开发者，以及各行各业的效率提升，输出解决方案。据进一步了解，依图语音为应用开发者打造了可以实现短语音听写、长语音转写、实时语音转写等三项 API 接口，凭借业界领先的声学和语言模型，依图语音识别为开发者提供了准确高效的语音转文字功能。

与此同时，在现场依图宣布与微软联合发布基于 Azure 的语音开放平台，与华为共同研发智能语音联合解决方案，在先前在语音识别一体机、智慧政务、智慧园区等层面的合作基础上，依图旨在进一步深化与合作伙伴的互信赋能关系，更加切实的依托依图的语音技术实力与开放多元战略，构建一个技术普惠平台，探索语音技术行业落地更加广阔的前景。

据了解，目前短语音听写 API 已经上线，开发者可以通过官方开发的小程序进行体验。（小程序二维码请见文末）官方数据显示，现阶段依图语音的识别准确率高达 96.36%，处于业界顶尖水平。

依图切入语音识别赛道的动机和初衷是什么？在这样一个热门赛道下，依图准备如何利用之前的技术积累，讲好自己的赋能故事？接下来，依图又是否会把这种横向延展的思路延续下去，针对更加多元的应用场景与客户需求，绘制一副更具想象空间的技术蓝图？

带着这些问题，极客公园创始人兼总裁张鹏同吕昊博士与吴双博士进行了一场行业交流。以下是交流的现场纪实：

张鹏：从技术的专业角度来看，为什么未来算法会在不同场景里面起作用？两位会优先选择哪些场景来打磨优化算法？其中需要考量的关键变量是什么？

吴双：从技术角度来说，我觉得归根结底，很多指标在开始的时候是对我们的算法提升很有帮助的，因为它给你非常直接的信号。慢慢的当算法到极限的时候，指标的意义就会有所减弱。虽然语音技术已经发展到了相对成熟的程度，还是无法保证每套算法都能被指标所校正。至于是不是要在不同的场景下用不同的算法，首先其实我们这里只是测试了一个算法。这个大家在我们的平台上也看到，调动一个 API，后面对应的就是一个单独的算法。如果能够在多元场景下都能保持可应用的状态，这也是证明了一个算法具有普适性。其次在不同场景下涉及到的许多工作，比如说在数据的收集上，不同的算法显然会得到不同的结果，比如明明是标准的普通话，如果用专门对付口音的算法，最后得到的结果肯定是不准确的。我觉得更多的时候我们的算法用在一个场景之下后，算一下场景的及时性做调整，把这些优化放到算法里面，让这些算法得到更好的应用，这件事本身是很有价值与意义的，在这个方面，我觉得还是有很多事情要做的。

上面的是依图科技首席科学家吴双博士

张鹏：我们看到普适性是一个一直被强调的概念，要想具备理想的普适性，需要收集大量的数据，同时需要机器学习等各方面的能力不断优化。今天语音技术已经在一些场景里面得到应用，两位认为未来语音技术还可以向哪些行业或场景延展？技术测试的各项指标会不会帮助发现更为明确的落地场景？

吕昊：我们今天分享的一部分是在汇报依图算法在多元场景下的性能，这些数据可以说集中体现了我们目前的技术水平，从中我们也能够看到正是因为依图拥有强大的技术实力，所以能够比较容易的在短时间内去开发并适应新的场景。如果出现了不同于以往的场景的新的场景，（我们）会去有针对性的训练更多模型，希望能够尽快在新场景下做得更好。我相信长此以往通过这么多的场景下对于数据集的摸索与把握，最终训练出来的算法可以体现出来（比较好的效果），据我们的观察虽然现在没有这些证据（证明这件事会发生），但是这个愿景肯定是符合未来发展的趋势的（如果这件事真的会发生）。

技术强者在眺望的远方

张鹏：我很好奇，为什么语音识别，这个其他公司研究了很长时间都没取得非常实质性突破的领域，依图在短期之内就能做到在某些场景下的优良准确率？

吴双：实际上做语音产品的过程，依图自身也是在不断的尝试，我们的技术实力还没有强大到让我们可以非常有计划，有目的的在新赛道弯道超车的程度。依图是一家研究人工智能或是一家研究机器学习的公司，我们想要搞清楚的是人的各种各样的能力是怎么来的，以及我们可以怎么样学习这种能力，并把这种能力做成算法。正是这些对于未知事物的好奇，推动着我们从人脸识别扩展到语音技术这样一个新的领域。

吕昊：坦白来讲，这一切背后的动力源其实来自我们对于技术的美好愿景的坚定的信仰，我觉得围绕着语音做研究，做开发的路还很长，究竟语音技术的行业现状是什么样的，依图有多大的能耐推动整个行业往前都多元，这些都是未知的，只有实际做了才知道，这种实用主义的理念可以看作依图成功背后的重要的软实力之一。

另外我刚才在演讲中也提到了，依图做语音产品的一个核心逻辑是一个公开的数据集，公开的算法 API 和公开的测试，我认为这也是支撑依图语音能够走得更多的关键变量。通过构建这样一个开放的生态，比如通过论文公开，数据共享等途径，可以让这个行业以非常快的速度实现迭代，所以在语音产品的研发规划上，依图的成功经验总结起来无外乎就是开放二字。

张鹏：所以说这次开发布会，不仅仅是向外界汇报语音技术的进展那么简单吧？

吴双：可以这么说，这次发布会的重点还是希望能够希望通过公开权威的数据，让全行业对于语音技术的发展现状有一个更加清晰的认识与了解，激励全体业者共同进步。

给「皇帝」设计一套真正的「新衣」

张鹏：目前，智能音箱可以算是语音技术落地场景中比较成熟的，已经走在了教育市场的阶段，天猫智能音箱的目标定在了 1000 万台，包括依图在内很多优秀的公司都陆续入局了，企图通过持续的投入把准确率再往上推几个小数点，这样做会不会导致出现一个无限边际场景上升，进而边际成本不断上升的局面？

吕昊：我觉得理论上有可能，从人工智能很多其他的落地场景来看，一定程度上我们可以认为这种局面的出现是必然的，因为这是语音独特的性能所决定的，它天然的物理属性使得不同公司所提供的技术本质上的逻辑是相差无几的，唯一存在区别的只是准确率是否高，不仅语音如此，视觉其实更是这样，所以我觉得这不是太大的问题。

吴双：我觉得在语音里面，您提到的边际成本上升的情况应该会好一点。

张鹏：您的意思是边际成本的上升还没有达到不合理，不可持续的程度？

吴双：您可以这么理解，语音技术虽然已经发展了很长时间了，这并不代表在这个领域不会产生新的价值了，就像之前说的，制约语音技术发展的核心要素就是识别准确率，虽然现在的技术成熟度想要达到百分之百的准确还不太现实，但是事实上只要字错率能够控制在 3% 以下，一款语音产品就能够适应日常应用，获得市场认可的，也就是说只要达到 3% 这个门槛的话，技术相对来说就可以称得上是成熟普适了，接下来就可以在多元场景下输入复制了，比如语音技术在智能音箱上可以实现语音识别、语义理解、多轮对话、智能纠偏等多种功能，毕竟语音只是语言智能的一个敲门砖，所以我们如果这样这样来看的话，在技术研发的初期出现边际成本上升是难以避免，但是这个问题在技术稳定到具备了大规模复制性之后，我觉得会自然而然的得到解决，同时坦白来说，要走到这一步面临的挑战还是很多的。

张鹏：其实刚才数据中我们能看到很多一直以来知名度很高的语音识别从业者，在一些场景下的表现也不是很理想，这些还存在于语音识别技术上的缺陷，就像是皇帝的新衣一样，被依图很任性的给指出来了，这件事挺独特的。既然已经入局了，未来依图想要提升准确率，从 90% 多一步步走上来，这个提升的过程的周期是怎样的？这一点上依图有什么预判吗？

吕昊：采样的话（这次）是第一个点，所以很难知道曲线的频率是多少，可能多两年（以后）我们可以更好的回答这个问题。

张鹏：那推进这件事的关键变量其实在于数据，对吧？

吕昊：其实我们有很多的地方还想尝试，但碍于种种原因没能实现，不然的话，我们可以一边试错，一边探索一些不同的方法。当然您说的数据也是一方面，更多维度的数据肯定是可以推动我们再做更多的探索。

张鹏：眼光独到也好，战略前瞻也好，有独门秘籍加持也好，要想取得成功最终还是离不开在智能领域的技术积累。

吴双：对，不否认有一部分的成功其实是之前的技术积累带来的，实际上不光如此，为了打磨优化语音技术，我们今年花了很大力气收集了众多自然语言的数据集，同时为了实施大型的数据测试进行了非常多的沟通协调，之所以前期做这么多的准备工作，还是希望可以尽量无损高效的把依图在人工智能领域的技术积累，迁移到更加广阔的维度，我们相信一家做事风格更加严谨的公司在这方面会更加有优势一些。

商场风云带不走的科学底色

张鹏：从学术界踏入商界，在身份标签从科学家向从业者转变的过程中，两位有没有感受到哪些东西是和自己的想象不一样的？有没有一些感悟可以分享给我们？

吕昊：个人来说，科学依旧是我关心的问题，平时我还是习惯优先从科学角度看待问题。

张鹏：所以说你的人格底色还是科学精神？

吕昊：应该说身处商界，我的核心思考是如何更好的追求并挖掘每一个场景下所蕴含的价值，确实商场上有很多风口，但我们并不会因为一个行业火热而盲目投入其中，有没有挑战性才是我在商业决策中唯一不变的考量指标。

我觉得语音识别技术离我们的生活实际其实很近，智能音箱也好，语音翻译机也好，这些产品一定程度上可以看作是搭载了语音功能的「玩具」，消费者购买这些产品摆在家里，其实就是想让自己的家居生活更加智能的同时，让自己的生活方式更加充满情调与趣味。要想做好多元场景下的语音交互，必须先了解消费者的这层心理才行，之后才谈得上价值实现。只要对着有价值的东西认真做，我觉得不需要太多思考商业的东西，目前语音识别行业的问题还没到太考虑商业的阶段。

吴双：关于学术界与商界之间的差异，我觉得可以这么来看：学术界的研究就是一个创业公司，它（学术研究）是非常小的创业公司，它要拿资金，需要雇学生，并且这些雇员还是每过五年就会离开的。回头来说，商业这种反馈是更直接，更残酷的，你成就成了，不成就不成。资本会直接告诉你，市场会告诉你你做的事有没有意义，有没有价值，这个反馈会更快。所以说我觉得（商业反馈会告诉你）你做的事情是不是在做真正（有价值的）事情。

扫描上方二维码即可参加听写大会，抢先体验依图语音产品

责任编辑：早优夫斯基

张鹏：从技术的专业角度来看，为什么未来算法会在不同场景里面起作用？两位会优先选择哪些场景来打磨优化算法？其中需要考量的关键变量是什么？

技术强者在眺望的远方

给「皇帝」设计一套真正的「新衣」

商场风云带不走的科学底色

最新文章