何搏飞：机器视觉会改变什么

编者注：本文根据格灵深瞳 CEO 何搏飞在 2015 年极客公园创新大会上的公开演讲整理而成。

大脑接收的 80% 信息来自视觉

「Vision」这个单词在任何一本英汉词典里，第一条解释就是视觉。视觉是什么？视觉是一种感知能力——人一共有 5 种感知能力：视觉、听觉、嗅觉、味觉，还有触觉。

人的大脑之所以这么聪明、复杂、高级，就是因为人可以自主的学习。自主学习的主要来源就是这 5 种感知能力，其中大脑所接受的 80% 信息都来自视觉。

如果我们不得不放弃四种感知能力，只保留一种，你会保留哪一种？在座的很多人答案都会跟我一样，你会保留视觉信息，大家有没有想过为什么。

我们的大脑分为左脑和右脑，左脑是理性的，右脑是感性、有创造力的。还有一个数据可能大家并不知道，我们的大脑有将近 1000 亿个神经元。其中绝大多数只做一件事情，就是处理我们的视觉信息。

当我们希望休息、特别是当希望让大脑休息的时候，会做什么事情？通常我们会闭上眼睛。每天当我们的睁开眼睛的时候，我们都主动或被动的在接受大量的复杂信息。

我们人类主要是通过学习成长，智慧也是在这过程中提高。分享知识非常重要，从几千年前开始人类就把文字编辑成书。

但文字承载的信息量是有限的，我们还希望它更加的丰富多彩。所以 100 多年前有了电话，可以远距离的人听到我们的声音。后来就有了广播，终于几十年前我们有了电视。到了十年前，在网络带宽成为可能的情况下，视频网站才成为来可能。

为什么从文字到声音到视频，一步一步从几千年前到最近几年才能随时随地的分享动态画面？因为动态的视觉信息是最丰富，也是最复杂的。

当机器有了视觉

首先是一个更加互动的世界

我们讨论人工智能，讨论计算机、机器是否有学习能力的时候，我们首先要问自己一个问题：机器有视觉吗？在今天绝大多数场合下，机器是没有视觉的。你们会反对说用手机拍照，电脑上、大街小巷有这么多摄象头，难道它们不是机器的眼睛吗？难道不是视觉吗？但是，当我们拍了照片、视频，最终计算机看懂了吗？

不管是单反相机还是摄像机，拍完后最终还是要人处理这些信息。为什么？因为在绝大多数情况下，电脑是无法处理这种复杂信息的。

但是在很多领域中，机器视觉已经在改变我们的生活了。很多人马上会想到的是微软的 Kinect，当你做各种动作时它能理解你的行为，配合多媒体会有更互动、更丰富的感受。

当机器有视觉的时候，首先带给我们的就是一个更加互动的世界。

好莱坞电影和美剧在制作过程中会有一个绿色的背景，它的作用是把人跟背景区分开，后期制作时可以把绿色背景换成任何场景。但是有了三维计算机视觉，在座的每个人都可以做出超越好莱坞特效师的动画，这只是个简单的例子。

然后，是一个更加健康的世界

当机器有了视觉以后，还会给我们带来一个更加健康的世界。

再举个例子，人的心脏是唯一不能够被麻醉药麻痹的器官，只要人活着心脏就会不停的跳动，但在跳动的心脏上做手术难度是非常大的。所以，很多心脏手术医生做的第一件事情就是通过医学手段让心脏停止跳动，然后用最短的时间做完手术再让心脏重新起搏——但将有 30% 心脏将会永远不能再跳动起来。如果有一种技术使医生在跳动的心脏上做手术，将会挽救很多人。

人的心脏跳动是非常有规律的，如果手术刀可以与心脏同频率振动，医生通过摄象头看到的就是相对静止的心脏，那时候动手术就相当于在静止的心脏上做手术。这个画面上，白色的网格就是要做手术的区域，通过计算机深度视觉，它相当于是稳定的。这在国外已经应用了，我相信不会很久中国也会应用。

一个更加便捷的世界

当自动驾驶这一天来临的时候，我们将有一个更加便捷的世界。

刚刚过去的 2015CES 除了智能硬件，应该说今年是自动驾驶的元年。奔驰、宝马、尼桑……几乎所有的车厂都在今年发布了自己自动驾驶汽车的计划。很多车厂宣称，2020 年他们的自动驾驶汽车就会跑在大街小巷。

我个人总觉得，自动驾驶汽车将会是第一个真正被人类大规模使用、并对人类生活产生颠覆性影响的真正意义上的机器人。因为当汽车可以自动驾驶的时候，它对我们来说才是一个真正智能不需要人为干预的机器人。

大家可能都看到过 Google 的无人驾驶汽车，Google 应该是到现在为止全世界第一个让自动驾驶汽车在人类的公路上行驶超过 100 万公里的公司，奔驰、奥迪还都处于实验阶段。我曾经跟 Google 无人驾驶汽车负责人开了个玩笑说，你们 Google 自动驾驶汽车业只敢在美国这样的城市测试，敢来北京测吗？他当时告诉我，无人驾驶汽车这件事情要成功，最大的障碍和挑战只有一个，那就是计算机视觉。

控制汽车的方向盘、油门、刹车，这些事情简单的传感技术就可以解决，甚至一个纯电动车一个软件就可以解决。告诉汽车从 A 到 B 你的目的地在哪，GPS 就可以解决。但是，面对路上发生的一切，真正难的是如何应对路上各种复杂的状况，而这些需要的就是视觉感知能力。

如果没有视觉感知，你如何知道前面有行人在穿越马路？一切的实现，必须要依靠计算机视觉。

安防角度的计算机视觉探索

大家可能知道，格灵深瞳是把计算机视觉技术应用在监控领域的公司。这么多摄象头连接到监控中心、有很多人盯着它看，为什么还需要计算机视觉？我们需要人工智能做这么多事情吗？

假象一个场景，你在你自己家里通过电视看时下特别热门的电视剧，这时又把 iPad 摆在前面观看意甲联赛，同时你的朋友还在给你发微信。我跟你打个赌，给你 10 分钟以后我随机考你这三个屏幕的内容，我相信在座很少有人跟我赌——因为三个屏幕展示动态画面的时候，对人来说信息太复杂了。

安保中心监控室面对的是这样一个屏幕，我曾经参观过拉斯维加斯所有大赌场的后台监控中心，跟中国任何一家普通银行的监控中心没有任何区别——都是这样一个大屏幕，几个人盯着这个屏幕在看。当人盯着这样一个大屏幕看超过 10 分钟的时候，跟什么都没看一样。

大家想象一下，10 个大屏，每个大屏 16 宫格，也就是 160 路视频。北京机场就有几万路视频，也就是说，如果把每一路视频放一分钟把这些视频轮一遍，就需要 5 万个小时。所以，发生事情能看到吗？

每时每刻每一路视频都把它存下来，最后我们当证据用。但你想一想，这么多路视频无时不刻都在存储，全世界每卖出两块硬盘，其中有一块就是卖给安防监控视频的。当有这样海量数据的时候，人类如何处理？

如果我们可以把每个摄象头，都换成一个有智慧的小机器人帮我们盯着，发生问题时就可以第一时间预警。所以，当我们的机器有了视觉的时候，我相信大家都能够看到，我们的世界会变得更好。

我们做的一切，都是为了将自己解放出来

但是当世界变得更好的时候，我们人会变成怎么样了呢？人会变得更高、更快、更强？那是奥林匹克精神。我个人觉得我们人的愿望一开始就跟更高、更快、更强是相反。人类从一开始所有技术进步的唯一源动力，就是把自己解放出来，或者说的更直白一点，就是让自己变得更懒。

我们今天，甚至有很多的服务都可以上门，O2O 上门美甲、洗车，所有事情都是把人类解放出来。每次重大的技术革命，比如 17 世纪的蒸汽机革命、19 世纪的电力革命、近代的信息革命、工业革命发生以后，机器可以开始取代人类做一些简单的体力劳动，我们的四肢被解放出来，不再需要走路可以坐车。随着电力革命、信息革命，到今天大脑一部分功能都已经被计算机所替代。我们要做运算的时候，我们可以用计算器，电脑、手机也可以帮助我们记忆、存储。

这就是为什么我总觉得人工智能一定会实现。因为从潜意识里，人一定会不懈的朝着这个方向努力。对人来说最难被解放的两个器官，一个是眼睛、一个是大脑。也曾经有人问我，马斯特和霍金都对人工智能发表了很多威胁论，人工智能成熟以后是不是有很多人会失业？我对这个问题的看法是，技术变革会迫使们做更有创造力、更高级的事情。

比如过去做农活这是个相对更加简单的体力劳动，而当这样的体力劳动被机械化替代的时候农民工来到城里，他们做了泥瓦匠、水电工、月嫂，他们挣的钱比我们很多人都多。而未来人工智能替代人做更多事情的时候，人会被逼迫做只有人才能做的事情——去交流、去分享、去进步，最终去进化。

所以，人做的所有事情最终就是想实现一件事情，那就是人工智能——把我们的大脑都彻底解放出来，让人自由自在做有创造性、有创造力的事情。

「Vision」的第二条解释就是「远见」，也就是在未看见的时候，能通过想象力看到未来。

未来其实就在我们眼前。