从安静会议室到喧嚣工厂展会:讯飞双屏翻译机 2.0 如何突破「噪音壁垒」?

摘要

在全球化进程不断加快的当下,国际交流的场景早已从会议室里的安静对话,拓展到展会、工厂等复杂环境。随之而来的,是跨语言沟通面临的诸多现实挑战:嘈杂的环境、多人同时交谈、声源相互交织,让传统翻译设备常常难以应对。作为人工智能领域的「国家队」,科大讯飞凭借着深厚技术积淀,创造性地给讯飞双屏翻译机 2.0 配备了「耳朵+大脑」,让这款设备既听得清又会思考,为用户带来了全新的跨语种沟通体验。

在全球化进程不断加快的当下,国际交流的场景早已从会议室里的安静对话,拓展到展会、工厂等复杂环境。随之而来的,是跨语言沟通面临的诸多现实挑战:嘈杂的环境、多人同时交谈、声源相互交织,让传统翻译设备常常难以应对。作为人工智能领域的「国家队」,科大讯飞凭借着深厚技术积淀,创造性地给讯飞双屏翻译机 2.0 配备了「耳朵+大脑」,让这款设备既听得清又会思考,为用户带来了全新的跨语种沟通体验。

首先,在声音捕捉层面,讯飞双屏翻译机 2.0 配备了五颗高灵敏麦克风,它们以星型分布在设备的左右两侧与底部。这种独特的阵列布局,如同为翻译机打造了多个「敏锐的耳朵」,能够从不同角度捕捉声音。在复杂的声场环境中,这些麦克风协同工作,快速判断哪个声音离设备最近,哪个来自远方,为后续的「语音识别」筑牢根基。

有了精准的声音捕捉,接下来就是对声音的「筛选过滤」。讯飞双屏翻译机 2.0 引入深度强化学习技术和深度神经网络,在嘈杂声场中构建了智能化的「声学结界」。它会优先处理 1 米以内的近场人声,将其视为「主角」;而 1 米以外的环境音,则自动被识别为「干扰配角」,算法会对其进行削弱或滤除。这就好比在用户和翻译机之间拉起了一圈「隐形的听力护栏」,将外界的嘈杂声音隔绝在外,让关键语音清晰传递。

并且,讯飞双屏翻译机 2.0 还引入了自适应注意力机制,使算法模型进一步具备了类似人耳的「选择性聚焦」能力,模拟人类听觉注意力机制,在瞬间完成从「环境识别」到「目标锁定」的全过程,让机器能够精准捕捉目标语音,使讯飞双屏翻译机 2.0 即便在多人交谈、背景复杂的环境中,也能够自动聚焦对话对象,翻译机等同于有了会思考的「大脑」。

「通过深度强化学习方法,目标语音的 STOI(语音可懂度)达到 0.92,在工厂 90dB 机械轰鸣噪音、展会复杂背景人声混杂场景,语音识别率从 32.39% 提升到 98.69%,这个准确率已经接近了理论极限。」讯飞研究院声学算法高级工程师程枫介绍道。

从会议室的精准对译到展会现场的嘈杂交涉,从工厂机械的轰鸣背景到机场人流的多音交织,当全球化浪潮推动着人类交流走向更复杂的场景,讯飞双屏翻译机 2.0 凭借「耳朵 + 大脑」的创新架构,真正实现了从「能翻译」到「会沟通」的跨越。

正如科大讯飞翻译业务线产品总监孙境廷所言,「从技术中来,到用户中去,技术创新优化用户体验」,讯飞双屏翻译机 2.0 通过最前沿的强降噪技术,让跨国交流不再受困于语音识别的模糊地带,为全球用户打开了更广阔的沟通空间。未来随着人工智能与声学技术的进一步融合,科大讯飞将持续以技术创新助力实现「声动世界 智联未来」的愿景。

来源:互联网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。