国内人工智能公司在国际大赛上拿了一堆第一,但你知道他们到底在比什么吗?

摘要

这次学术竞赛的各个项目均是人工智能行业计算机视觉应用至关重要的基础型技术。

作为人工智能的一个重要分支领域之一,计算机视觉在商业化上已经取得了不可小觑的成绩,这同时也让商业群体开始关注到学界在计算机视觉领域的研究。

此时此刻,在意大利的威尼斯,刚刚结束的 2017 年国际计算机视觉大会上,来自中国的旷视科技研究院在 COCO 和 Places 竞赛中参加了 4 项比赛,并拿下了三项第一,一项第二,领先于微软、Facebook 和 Google 等科技巨头。

关注到这一优秀的成绩,极客公园第一时间通过远程语音采访了远在威尼斯的旷视科技参赛团队的带头人姜宇宁,请他来为我们科普一下这场备受行业瞩目的竞赛。


两个大赛:一个针对东西,一个针对背景

首先介绍一下 COCO 和 Places 这两个竞赛。

COCO 的全称是常见物体图像识别(Microsoft Common Objects in Context),起源于微软出资标注的一个数据集,与此前著名的 ImageNet 比赛同样被视为是计算机视觉领域最受关注和最权威的比赛之一,也是目前该领域在国际上唯一能汇集 Google、微软、Facebook 以及国内外顶尖院校和优秀创新企业的大赛。

相较于更关注整体图像分类的 ImageNet,COCO 重在图像中的物体检测,打个比方,对于一张几条狗的照片,ImageNet 更注重参赛者能否将这张图片归类到「狗图」那一类,而 COCO 则注重于你能否识别出图片中的动物是不是狗,有几条,分别出现在图片上的什么位置等。

目前 COCO 已经举办到了第三届,前两届的冠军分别是微软和 Google。

今年的 COCO 比赛包含 4 个子项,分别是物体检测物体分隔人体关键点检测和背景语义检测,旷视科技参加了前三项的比赛,姜宇宁也向我们解释了这几项比赛的具体内容。

物体检测在上面已经有了基本的介绍,在计算机的交互界面上主要表现为用矩形框将物体框住。

物体分割则是在物体检测上更进一步,不仅仅要确定物体在某一区域,还要对物体在图片上的形状做一个更加细节性的定位。接着拿上面的「狗图」举例,在物体分割的比赛中,参赛选手要让计算机识别出每条狗在图片上的具体形状,最终表现在二维图片上的效果类似于画图中的「描边」。

人体关键点检测技术主要针对于图片中的人体,计算机不仅仅要识别出人的位置、确定在图上的细节形状,还要确定人的手、肩膀、腿等关键点的具体位置。

不同于 COCO 对物体的着重,与之同期举办的 Places 竞赛则更注重场景的检测。今年的 Places 开放了 3 个子项,场景分割物体分割以及边缘检测。旷视科技参加了物体分割,并在挑战中击败 Google,赢得了该问题的冠军。

据姜宇宁解释,场景分割即把物体和背景分割开来,继续「狗图」的例子,假使两条狗在一起,物体分割就需要把两条狗分割开来,而场景分割「只需要描 1 个边就可以了」。

至于边缘检测,则是对不同物体的边缘进行「分辨」,假使「狗图」中还有一只猫,那么猫与狗的边缘和狗与狗的边缘在这项任务中是不同的。姜宇宁提到,这项技术比较难,今年只有 6 支队伍参加,并且没有一支队伍取得了「看得过去的成绩」,所以最后并没有对这项比赛进行颁奖。


这些高大上的技术都有什么用?

姜宇宁提到,其实物体检测是「所有计算机视觉的技术中最基本、最重要但却最不容易被大众察觉到的一个关键步骤」。

就好像吃饭前要洗手一样,现在计算机视觉一个比较热门的应用是人脸识别,而在人脸识别系统中第一个步骤就是人脸检测,「第一步就是把人脸找到并抠出来,再进行人脸识别。」

在旷视最重要的产品 Face++上,这样的基础性技术就非常重要。「在安防的视频结构化的场景中,行人、车牌、车辆的目标分析,第一步就是找到目标;同样在无人驾驶这样的应用中,物体检测技术也是一个非常非常基本的条件。」

人体关键点检测技术则更多地应用于行为动作分析和人机交互的场景。

比如在监控和无人超市这样的场景中,机器需要知道顾客有没有拿东西,第一步就是检测顾客的手「有没有伸出去」,对机器来说,这需要它确定摄像头拍摄下的顾客的手上一帧在哪,现在这一帧在哪,从而分析出顾客的手是否发生了移动。

在很多体感游戏机上,人体关键点检测技术就得到了广泛的应用。

总的来说,竞赛的各项技术都是人工智能应用中的基础型技术,用姜宇宁的话来说,就是人工智能企业的「内功」。

从某种程度上来说,包括旷视、商汤在内的多家国内企业和高校在 COCO 和 Places 这种国际权威的大赛上取得不错的成绩,其实是国内人工智能行业硬实力的体现。当极客公园问到姜宇宁为什么要出去参加这项比赛时,他说道,「最重要的是检验自己的『内功』,在比赛中发现平时的研究是否有疏漏不足的地方,其次是要锻炼年轻的研究队伍,这次参加比赛的团队平均年龄大概只有 22 岁,很多人还是本科在读。」

「没想过要出去秀一下肌肉吗?」

姜宇宁笑着回答说,「这也算是原因之一吧。」


头图来源:视觉中国

责任编辑:早优夫斯基


最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。