微软亚洲研究院常务副院长郭百宁：计算机视觉的黄金时代到了

计算机视觉的黄金时代

「计算机视觉是通过采集、处理、分析和理解真实世界中的图像去得到数字或符号信息的一个领域。」打开维基百科，输入「计算机视觉」，按下回车键，你将看到以上的一段文字。是的，虽然对于我们大部分普通人来说，计算机视觉还是一个略显遥远的词汇，但事实上，它在今天的这个时代已经成为了遍布我们生活的一项科学技术。自从上世纪五十年代被提出之后，计算机视觉经历了半个多世纪的发展，终于在最近这几年实现了技术上的飞跃，逐渐走入了我们的实际生活中，成为了目前最炙手可热的研究领域之一。

然而将时间往回拨，在二十年前，虽然人们已经意识到了计算机视觉的重要性，但那时，它还远未达到一个成熟的发展阶段。「1998 年微软亚洲研究院建院的时候我们第一个成立的组就是视觉计算组，那时候计算机视觉应用非常少，很冷门」，微软亚洲研究院常务副院长郭百宁博士对极客公园说道，他同时也是计算机视觉领域的顶尖科学家，「当时图形学火了很多年，现在轮到计算机视觉火了。」

的确，随着进入 21 世纪以来更多的对于图像识别和大规模图像与视频数据库的研究，计算机视觉实现了一个突飞猛进式的发展，现在，仅在中国的科技创新领域，你就能见到许多以计算机视觉为核心技术的创新企业。

在郭百宁博士看来，2011 年是一个计算机视觉领域发展中的一个比较大的转折点，那一年人们真正觉得计算机视觉可以变成一个大的产业。以微软 Kinect 为代表，大家发现计算机可以理解动作，并实时地做出反应。紧接着在 2012 年，另外一个很重要的技术开始兴起——基于深度学习的图像识别。以前图像识别的准确率不是特别高，但有了深度学习之后，识别率逐年上涨，基本是直线上升。由于识别的精确度提高了，以前人们想象的计算机视觉可能实现的应用真的就能用了。

微软成为主要力量

在这两年全世界计算机视觉领域的发展中，世界上的几个科技巨头可以说是引领这股潮流的一支主要力量，其中微软就是典型代表。在去年举行的 ImageNet 2015 的比赛中，微软亚洲研究院视觉计算组的研究员们就凭借深层神经网络技术的最新突破，以绝对优势获得图像分类、图像定位以及图像检测全部三个主要项目的冠军。其中他们的独门秘诀就叫「深层残差网络（deep residual networks）」技术。

何谓「残差网络」技术？这是郭百宁博士给出的解释：数据放进去后，计算机要学习一个函数，再在函数里面加一个值的变化。现在我们不要直接学习函数，而是有一个粗略的值，这个粗略的值可能不是最精确的，但是学习的是它和真的函数之间的残差。残差学习最重要的突破在于重构了学习的过程，并重新定向了深层神经网络中的信息流。

如果你看不懂上面所说的专业术语也没有关系，其实这个技术的突破背后体现的是微软在这个领域积淀已久的爆发，看了下面的几个例子，大家也许能够更清晰地了解计算机视觉所能带来的改变。

图像去雾

微软1.PNG

上面这组图片是微软开发的一个图片处理的小技术，它看起来似乎不太起眼，但却充满了技术含量。其中它用到了微软亚洲研究院研究的基于暗原色先验的图像去雾技术实现了这一点。而这篇论文最终也获得了 CVPR（国际计算机视觉与模式识别会议）最佳论文奖，而这也是首次由中国人获得最佳论文奖。这篇论文研究的问题就是图像的去雾技术，它可以还原图像的颜色和能见度，同时也能利用雾的浓度来估计物体的距离，这些在计算机视觉上都有重要应用（例如三维重建，物体识别）。

Windows Hello

Windows Hello 可能是很多 Surface 设备的用户已经使用过的一项技术，它也是微软在计算机视觉方面的代表作。事实上，在几年前，微软就在 Xbox 上推行了这项技术，但很多用户都抱怨不稳定。但最终微软解决了这个问题：

「后来我们发现一个方法——假如用红外线的话，永远是准的。为什么呢？之所以不准不是因为算法的问题，而是视觉算法对光的敏感度很高，会受到光强弱的影响。红外线的光就很稳定，不受这些光的影响。于是我们通过大量的实验推出了 Windows Hello，它与 password 有一致的安全率。因为它的错误率低于 10 万分之一，连双胞胎都可以分辨出来。」

微软2.PNG （能分清双胞胎的 Windows Hello）

OneDrive 「图片识别」

此外，在很多人都喜欢的存储应用 OneDrive 中，计算机视觉也体现了很重要的价值，其中具体的表现就是「图片识别」功能。该功能会自动为用户上传的照片创建标签，比如人、狗、沙滩、落日等等，使用户借助标签能够更轻松地寻找到自己想要的图片。输入关键词或标签，就能搜索出心仪照片。

微软3.PNG

根据郭百宁博士的介绍，这个技术是利用微软亚洲研究院实现的一种名为「空间金字塔聚合」（Spatial Pyramid Pooling，SPP）的新算法——通过内部特征识别，而不是每个区域从头检测，对整个图片只做一次计算，在不损失准确度的前提下，物体检测速度有了上百倍的提升。

开放性的微软认知服务

上面这些都是计算机视觉在具体应用中的一些表现。而如何才能将这些技术更广泛地应用到我们的生活当中呢？微软给出的方案就是微软认知服务（Microsoft Cognitive Services）。

微软认知服务集合了多种来自 Bing、「微软牛津计划」等项目的智能 API。应用了这些 API 的系统能看、能听、能说话，并且能理解和解读我们通过自然交流所传达的需求。同时，服务中所包含的知识 API 可以通过强大的互联网来助力广大开发者。借助微软认知服务，开发者们就算没有人工智能的知识背景也能轻松开发出属于自己的智能应用。目前这套认知服务包括视觉、语音、语言、知识和搜索五大类共二十一项 API。有了那些 API 之后，开发者就不需要自己再花很多时间去开发这个技术了，直接用几行 Code 就可以调用并生成 App。下面这些应用都是基于视觉类 API 生成的。

微软4.PNG