迄今为止,人脸检测领域最值得参考的代码开源了

摘要

近日,知名开源社区Github上有个名为DSFD(Dual Shot Face Detector)的算法引起了业内关注,它来自腾讯旗下AI实验室:腾讯优图团队。据悉,该算法已经被计算机视觉顶级会议CVPR 2019接收,刷新了两个权威的人脸检测数据集WIDER FACE和FDDB上的新纪录。

近日,知名开源社区 Github 上有个名为 DSFD(Dual Shot Face Detector)的算法引起了业内关注,它来自腾讯旗下 AI 实验室:腾讯优图团队。据悉,该算法已经被计算机视觉顶级会议 CVPR 2019 接收,刷新了两个权威的人脸检测数据集 WIDER FACE 和 FDDB 上的新纪录。

  (Github 开源地址:https://github.com/TencentYoutuResearch/FaceDetection-DSFD

  论文公开地址:https://arxiv.org/abs/1810.10220v2 )

  「三点创新」打造人脸检测领域最值得参考的代码

  人脸检测算法是在图像上,检测出人脸的位置(通常以矩形框形式输出),是人脸配准、人脸属性识别、人脸核身、人脸检索等技术的基础。优图此次提出的 DSFD 人脸检测算法,主要有 3 点创新:

  (1)设计了一种新的「特征增强」模块(FEM:Feature Enhance Module)

  FEM 在采用 Top-Down 层间信息融合的同时,在同一「感受野」内做了更多的 enhancement。因此在 width and depth 上学习到了更有效的 context 和 semantic 信息。

  (2)提出了「分层锚点渐进」式的代价函数监督(PLA:Progressive Anchor Loss)

  模型采用 2 个层级(hierarchy),基于第一层(low-level)和第二层(high-level)的差异性,适配了不同尺寸的 anchor。在训练过程中,PAL 对整个模型形成了更有效的监督。

  (3)设计了一种「改进的锚点匹配策略」(Improved Anchor Matching Strategy)

  One-stage detector 由于在输出层分配有密集的 anchor,anchor 与 face 匹配的好坏直接影响训练效果。优图的研究人员 data augmentation 过程中充分考虑了不同大小的 face 和各个 anchor 的关系,提出了一种新的数据扩增法。

  (算法整体流程图)

  效果的提升,来自优图不断的研究探索

  随着近几年人工智能技术的发展,国内外不少机构、企业都在进行人脸检测的相关研究。来自腾讯优图的研究员们发现,虽然之前的人脸检测算法大都采用深度学习模型,并在特征学习的过程中也有采用特征金字塔网络(Feature Pyramid Network),但在面对遮挡、暗光、大姿态、小脸等复杂场景时,仍容易出现误检或漏检的情况。因此在 FPN 基础上,腾讯优图团队采用了 3 种不同级联方式的空洞卷积(Dilated Convolution),设计了特征增强模块 FEM,充分学习到了不同感受野下的人脸特征。

  (复杂场景下的人脸检测效果展示)

  然而,在新算法探索的过程中,并不是一帆风顺的。项目从去年 7 月中旬启动,来自项目的三个核心成员,进行到第三周,检测效果已经在 top5 了,他们清楚,到这里还远远不够。在接下来的两个多月里,想要提升效果却越来越难。就像爬山,前面爬得很快,越到后面,对耐力和决心的要求就越高。腾讯优图高级研究员 Case 回忆道:「那段时间,我和其他几位同事实验了很多方案,很多时候是多个方案同时跑,甚至有些方案跑了 4-5 天后,发现失败了,又得做新的尝试」。失败后,几个研究员就近在工位旁边的玻璃房里,一起分析原因,开始摸索下一套试跑方案。在 3 个多月的反复「试跑-推翻-试跑」中,最后终于跑出一套大家都满意的算法。不负所望,该算法论文也已被 CVPR2019 接收。

  走出实验室,真正为业务创造价值;代码开源,与同行共同探讨

  算法从实验室走出来,不是立马就能直接套用到业务里。事实上,论文里的模型通常比较大,导致实时性不好。在使用时,需结合实际应用情况压缩、裁剪,整体模型会做一定的调整。目前腾讯优图的人脸检测技术已在安防、金融、社交、交通等多个应用场景落地,并在手机 QQ、微众银行、天天 P 图等多个公司内外部产品上进行应用验证。如在安防领域,腾讯优图天眼智能安防平台以警务、安防需求为导向,面向稽查布控、刑侦办案、社会安防等多场景推出智能化海量人脸检索解决方案。

  (腾讯优图天眼智能安防平台)

  腾讯作为中国互联网巨头之一,近年来持续加强在 AI 及前沿基础科学研究的投入。2017 年,腾讯对外开源节奏开始加快,主要覆盖 AI、云计算、腾讯游戏、腾讯安全、小程序等相关领域。其中,腾讯优图的计算机视觉 AI 技术的开源,是其中重要的一环。2017 年 7 月,腾讯优图首个 AI 开源项目 ncnn 于正式开源,是一个为手机端极致优化的高性能神经网络前向计算框架,是业内首个为移动端优化的开源神经网络推断库。一年后 ncnn 正式加入 ONNX,AI 开发者能更快实现从研究到模型的落地部署,也能更方便地在不同框架间切换,为每项任务选取最优的开发工具。截止目前,ncnn 的 Github star 数已接近 6000。相信随着越来越多的 AI 机构、企业和个人的算法开源,将驱动整个 AI 研究更快发展和落地。


最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。