噪音环境下如何保证语音识别的准确率？搜狗「唇语识别」黑科技给出答案

从键盘打字到触控屏，再到现在的语音交互和手势交互，人工智能技术的发展，正在促使人机交互方式向更加多元化方向变革。而今天，国内知名互联网公司搜狗又推出了一种人机交互新技术——唇语识别，这也是业内首个公开演示的唇语识别系统，通过机器视觉识别，不用听声音，仅靠识别说话人唇部动作，就能解读说话者所说的内容。

与语音识别不同，唇语识别是一项基于机器视觉与自然语言处理于一体的技术，因此在研发难度上比语音识别大得多。据悉，搜狗首创了复杂端到端深度神经网络技术进行中文唇语序列建模，通过数千小时的真实唇语数据训练，另外得益于搜狗在自然语言处理方面的强大优势，最终取得了业界领先的唇语识别效果。在非特定人开放口语测试集上，搜狗唇语识别系统已经达到 60% 以上的准确率，超过 google 发布的英文唇语系统 50% 以上的准确率，在垂直场景如车载、智能家居等场景下甚至已经达到 90% 的准确率。在刚结束不久的乌镇世界互联网大会上，搜狗唇语识别技术亮相，在业内大多数唇语识别技术实用性尚待考证的环境下，成功完成了业内首个中文唇语识别系统的公开演示，引起广泛关注。

当国内大部分企业都扎堆聚集在智能语音、图像识别等领域时，搜狗唇语识别技术的推出无疑将引领整个行业进入一个全新的发展方向。作为人机交互的形式之一，未来唇语识别技术可以辅助语音交互及图像识别，在日常生活、安防、公益等各个领域实现广泛应用。比如在车载场景下，周围噪音过大时会对语音指令产生干扰，通过唇语识别技术则可以规避干扰，保证人车交互的准确性和稳定性，日常不便发声的公共场所也可以保证说话内容的私密性；在安防领域，由于目前多数监控只有摄像头没有麦克风，往往只能看清嘴型却不知道在说什么，给案情分析带来很多难题，而唇语识别技术可以帮助公安人员获取重要的讲话信息，为公共安全提供有效支持。除此之外，唇语识别技术还能发挥巨大的公益价值，帮助先天性听障人群或老年人，让他们更好地理解和表达自己。

作为一家技术驱动型的企业，近年来搜狗一直致力于自然语言的研究，目前在语音识别、语义理解、机器翻译等方面均取得了行业领先的成果并实现产品落地，此次推出唇语识别技术，不仅会推动整个 AI 行业的技术革新，也意味着搜狗在 AI 领域的技术实力达到了更高的发展水平。

头图来源：视觉中国

最新文章