搜狗挑战计算机视觉国际顶级赛事 Pascal VOC 刷新世界最好成绩

人工智能应用落地如火如荼，科技巨头间的技术竞争也在风起云涌。3 月 29 日，在国际顶级赛事 Pascal VOC 挑战赛目标检测 Competition 3 子任务中，搜狗人工智能图像团队所提交的 FPNSSD 深度模型，获得了 77.0 的高分，一举刷新了该项任务的世界最好成绩。（成绩查询网址：http://t.cn/RnmRmaO）。

PASCAL VOC 挑战赛是计算机视觉目标检测的经典权威赛事，其数据集标注质量高、场景复杂、目标多样、检测难度大，是快速检验算法有效性的首选。在计算视觉领域，Pascal VOC 挑战赛与 ImageNet 同为世界顶级的比赛，是国内外 AI 公司竞相展开激烈竞争的主赛场。

PASCAL VOC 的数据集包括 20 个类别：人类，动物 (鸟、猫、牛、狗、马、羊)，交通工具 (飞机、自行车、船、公共汽车、小轿车、摩托车、火车)，室内物体 (瓶子、椅子、餐桌、盆栽植物、沙发、电视)。其中，搜狗图像团队参加的 Competition 3 子任务，以官方提供的数据集为训练集，不能添加其他额外标注数据，更能体现参赛团队的模型设计和技术功底。

搜狗图像团队研发的 FPNSSD 检测算法，借鉴了 RetinaNet 的架构设计思想并优化经典的 SSD 检测算法，设计出基于 ResNet152 的 Feature Pyramid Network(FPN) 网络结构，同时融合浅层与深层的多尺度特征信息，这种在模型上的选择和优化策略大大增强了对小目标物体的检测能力。在此次挑战赛中，搜狗图像团队的 FPNSSD 检测算法在 20 个子类别中获得 10 个单项第一，其中在鸟、猫、狗等小物体类别上胜出优势明显，充分验证了 FPNSSD 检测算法在模型结构设计上的先进性。

此外，FPNSSD 检测算法采用 SoftmaxLoss + Hard Negative Mining 的训练方式，在 FPNSSD 框架中相对当前业内常用的基于 FocalLoss 的训练方式，能取得更高精度。

搜狗图像团队成员大多来自清华、北大、中科院、浙大等高校，曾先后取得几十项相关技术专利。团队长期专注于场景文字检测识别、人脸识别、图像细粒度分类、敏感图像检测、图像理解等前沿领域研究，相关成果已广泛应用于搜狗旅行翻译宝、搜狗翻译 APP、搜狗输入法、搜狗汪仔答题助手、搜狗识图等产品，在众多垂直领域及具体场景中满足着广大用户日益多样化、个性化的应用需求。

不仅如此，搜狗人工智能图像团队的前沿成果，还通过搜狗 AI 开放平台，正在为金融、保险、医疗等行业客户提供优质的 AI 服务和解决方案。作为人工智能带路党的搜狗，未来还将基于图像识别技术在更多场景实现进一步突破创新，带来更丰富便捷的 AI 体验。

最新文章