录音设备也需要操作系统?搜狗以此讲了个 AI 技术开放的故事

摘要

录音笔行业还有可挖掘的价值,核心是语音到文字,文字到对内容的理解,搜狗要与录音笔厂商结盟做这件事儿。

在表达和获取信息中,有两个核心词,一个是自然交互,一个是知识计算。以自然交互为横轴,以知识计算为纵轴,源头分别是输入法和搜索。随着自然交互的前进,从文字走向语音走向图像,输入法本身的自然交互能力开始进入翻译、智能硬件实际的商业使用。纵轴随着搜索对知识理解的技术的提升,未来在医疗、知识性问答、智能助理里面就有更多 AI 能力。

「这既是搜狗对技术的理解,也是搜狗对未来软硬件 AI 化之后在消费端布局的预测。」王小川站在台上说道。

这样基于 AI 技术的目标并不能一步实现,不过从搜狗分身技术、语音合成、变声等 AI 技术,再到翻译笔、智能录音笔 C1,这些通过 AI 技术转化而来的硬件产品,都在不同程度上更加靠近搜狗的 AI 目标。

近日发布会上,搜狗宣布开放「搜狗听写」服务,并与爱国者、万城集团、索尼录音笔、纽曼四家录音笔厂商成立 AI 创新联盟。如果做一个类比,听写服务之于录音笔厂商,就像安卓系统之于手机厂商,「搜狗开放的听写服务更像是录音笔 OS。」

搜狗宣布开放「搜狗听写」服务,并与爱国者、万城集团、索尼录音笔、纽曼四家录音笔厂商成立 AI 创新联盟 | 图片来源:搜狗

得益于在自然交互和知识计算领域的突破,搜狗与更多智能硬件产生连接,也让搜狗在 AI 技术落地有了更大的野心。


要更多语音入口,做录音笔OS

3 月 18 日搜狗发布了智能录音笔 C1,采用了双麦阵列和降噪算法。C1 发布几个月之后,杨洪涛表示行业第一次用录音笔反馈的真实海量数据对录音笔用户和使用场景作出画像。

AI 创新联盟成之后,搜狗则又打通多个触及用户,搜集语音数据的入口。正如王小川所说,搜狗输入法的日语音请求峰值超过 7 亿次,准确度超过 98%。搜狗与更多硬件的连接将会帮助其 AI 技术的壁垒越垒越高。

日均被使用 6 亿次,准确率达 95% 的搜狗语音转写技术是听写服务的重点。其实时语音转写运用了搜狗自研的延迟可控的 Adaptive Attention-based 端到端建模技术,非实时语音转写功能使用业界领先的深层 Transformer-based 端到端语音识别技术。

核心能力之外,搜狗首创了智能编辑功能,比如文本顺滑过滤口头语和重复词,通过声音识别区别说话者等等;同时支持 10 种以上的语音识别,以及方言。

不过,搜狗的做法与市场上的技术输出公司不太一样,搜狗听写并不是提供 API 技术接口,而是提供由技术构成的完整服务。

在搜狗 AI 交互技术中心总经理王砚峰看来,搜狗做的是两件事儿,一是将中台服务做得更完善,除了转写技术,还有搜狗输入法的接入,将录音笔与 PC 端、移动端搜狗输入法相连就能实现输入法内转写;承载用户输入习惯的统一输入法账号;多端同步编辑和云存储服务。

二是为合作伙伴提供更方便地接入服务。不管在移动端、PC 端,搜狗 AI 都可以直接根据硬件的特性,与硬件自动完成适配。「我们在做一个类似 OS 的概念,当有了这个录音笔 OS,合作伙伴的录音笔可以在无成本的情况下使用搜狗 AI 的中台能力。」


AI成熟期的开端,基于场景化的技术开放能力

「搜狗不想再做一个语音识别 API,而是用搜狗的优势让合作伙伴有更大的用户价值,同时也有产业和商业价值的服务形式出现。」这是搜狗在做结合场景的技术开放的核心点。

比如利用输入法的词库更准确地转写,是搜狗结合场景做技术的体现之一。据王砚峰给出的数字,通过实测,加入了输入法个性词库以后在专业词上的错误率降低 40% 以上。

未来是场景化的 AI 赋能,杨洪涛在接受媒体采访时坚信地说道。

用录音笔获取信息或者提升文字生产效率,是问题的第一步。当深入思考用户需求,每个场景里 AI 还可以解决更多的问题。「我们期待场景能够扩大化。」但是杨洪涛坦然,搜狗的 AI 技术还有更多的场景化问题需要去解决。

杨洪涛表示,搜狗 AI 接下来会做利用 AI 技术给录音降噪,过滤吵杂和无关的声音。王砚峰补充道,搜狗 AI 还需要训练自纠错的能力,在搜狗 AI 做翻译的时候,会把语音识别的错误也带到翻译模型中建模,训练出结果是即便语音识别错误,只要语音是正确的,机器仍然能翻译出来正确的效果,「后面的系统如何能吃掉前面的错误,对我们来说是另一大挑战。」

从搜狗引以为傲的分身技术,到智能硬件落地,再到 AI 能力的开放,对于搜狗来说不仅像是上一阶段技术发展的小结。更像是告别搜索、浏览器、输入法「三级火箭」时代之后,迈向 AI 技术成熟期的开端。

搜狗 AI 合成主播 | 图片来源:视觉中国

下一个阶段,随着对用户使用场景的深入挖掘和在更多数据入口的加持下,搜狗 AI 技术在「封闭」到「开放」演进的过程中不断迭代、不断成熟。而在这个过程中,思考如何联合产业产生新的商业模式,更是搜狗和合作伙伴更愿意看到的结局。

「当前中国的互联网 AI 公司现状是大家的技术能力都差不多,没有很本质的区别。要么你在技术上有强大的壁垒,比如搜狗的分身技术,在这个阶段是有技术的窗口期,如何利用技术的窗口期更好地占领市场。」杨洪涛说道,「当你有好的 AI 能力的时候,释放出来,能不能通过好的 AI 技术形成好的商业化能力。不仅仅是技术,需要把配套做起来,从技术到服务体系的支撑,这是两条腿走路,不可或缺。」

这个开端之后,杨洪涛表示未来会将搜狗分身、变声、同传一类,在行业中有影响力的,提供更完整方案的领域逐渐地进行开放。


图片来源:搜狗、视觉中国

责任编辑:卧虫

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。