从安静会议室到喧嚣工厂展会：讯飞双屏翻译机 2.0 如何突破「噪音壁垒」？

在全球化进程不断加快的当下，国际交流的场景早已从会议室里的安静对话，拓展到展会、工厂等复杂环境。随之而来的，是跨语言沟通面临的诸多现实挑战：嘈杂的环境、多人同时交谈、声源相互交织，让传统翻译设备常常难以应对。作为人工智能领域的「国家队」，科大讯飞凭借着深厚技术积淀，创造性地给讯飞双屏翻译机 2.0 配备了「耳朵+大脑」，让这款设备既听得清又会思考，为用户带来了全新的跨语种沟通体验。

首先，在声音捕捉层面，讯飞双屏翻译机 2.0 配备了五颗高灵敏麦克风，它们以星型分布在设备的左右两侧与底部。这种独特的阵列布局，如同为翻译机打造了多个「敏锐的耳朵」，能够从不同角度捕捉声音。在复杂的声场环境中，这些麦克风协同工作，快速判断哪个声音离设备最近，哪个来自远方，为后续的「语音识别」筑牢根基。

有了精准的声音捕捉，接下来就是对声音的「筛选过滤」。讯飞双屏翻译机 2.0 引入深度强化学习技术和深度神经网络，在嘈杂声场中构建了智能化的「声学结界」。它会优先处理 1 米以内的近场人声，将其视为「主角」；而 1 米以外的环境音，则自动被识别为「干扰配角」，算法会对其进行削弱或滤除。这就好比在用户和翻译机之间拉起了一圈「隐形的听力护栏」，将外界的嘈杂声音隔绝在外，让关键语音清晰传递。

并且，讯飞双屏翻译机 2.0 还引入了自适应注意力机制，使算法模型进一步具备了类似人耳的「选择性聚焦」能力，模拟人类听觉注意力机制，在瞬间完成从「环境识别」到「目标锁定」的全过程，让机器能够精准捕捉目标语音，使讯飞双屏翻译机 2.0 即便在多人交谈、背景复杂的环境中，也能够自动聚焦对话对象，翻译机等同于有了会思考的「大脑」。

「通过深度强化学习方法，目标语音的 STOI（语音可懂度）达到 0.92，在工厂 90dB 机械轰鸣噪音、展会复杂背景人声混杂场景，语音识别率从 32.39% 提升到 98.69%，这个准确率已经接近了理论极限。」讯飞研究院声学算法高级工程师程枫介绍道。

从会议室的精准对译到展会现场的嘈杂交涉，从工厂机械的轰鸣背景到机场人流的多音交织，当全球化浪潮推动着人类交流走向更复杂的场景，讯飞双屏翻译机 2.0 凭借「耳朵 + 大脑」的创新架构，真正实现了从「能翻译」到「会沟通」的跨越。

正如科大讯飞翻译业务线产品总监孙境廷所言，「从技术中来，到用户中去，技术创新优化用户体验」，讯飞双屏翻译机 2.0 通过最前沿的强降噪技术，让跨国交流不再受困于语音识别的模糊地带，为全球用户打开了更广阔的沟通空间。未来随着人工智能与声学技术的进一步融合，科大讯飞将持续以技术创新助力实现「声动世界智联未来」的愿景。

来源：互联网

最新文章