NVIDIA 全球副总裁:图像处理技术的新计算与新想象

NVIDIA 全球副总裁:图像处理技术的新计算与新想象

编者注:以下内容根据 NVIDIA 公司全球副总裁 & 中国区总经理张建中在极客公园 2016 奇点·创新者峰会上的演讲整理而成。更多相关信息请关注:singularity.geekpark.net


今天能够有幸在这儿跟大家分享一下 NVIDIA 最近几年当中在人工智能、自动驾驶和虚拟现实三个领域当中的一些突破。但是我认为还是先跟大家讲讲 GPU 的应用。

我们大概在 20 年前发明 GPU,那个时候开始 GPU 的应用只是简单地停留在图形里面,转到今天 GPU 的应用已经非常广泛了。我们知道,大概在过去的一年当中,GPU 在三个领域当中的突破是非常快的。其中第一大突破,就是游戏跟 VR 领域的突破。它把 VR 从一个古老的技术推进到能够成为消费者产品。还有就是人工智能,让 GPU 应用发挥的更快。在极客公园当中有很多大部分的应用都是基于人工智能的计算方面去发展起来的。第三个领域,也是今天很多汽车公司都想转型的一个地方,就是把汽车变成「自动驾驶」或「无人驾驶」。

2.pic_meitu_1.jpg

AI:将准确率提高至90%以上

首先我们来讲讲 AI。虽然过去很多人研究人工智能,但是我们才在这几年迎来一系列突破。AlphaGo 之前,很多算法没有办法去实现。他们如果说搭建神经元网络去计算的话,大部分的层次只能在几十层左右。今天可以做几百层,甚至有的人可以做到一千多层。其实有绝大部分的运用是在整个计算里的发展过程当中逐步产生计算能力给我们大家带来好处的。在人工智能当中,如果我们看传统的研究方法跟新的研究算法到底有什么不一样?

传统的图形图象识别大部分的人是靠自己的经验搭建模型。如果你的经验越丰富,专家设计的越精确效果就越好。这跟科研人员的能力本身是密切相关的,大部分公司可能由于 IP 的原因,某些研究成果也不能够分享给别人,所以导致图形图象识别过程当中的进步比较缓慢。这几年,经验识别的准确率也难以提升。

3.pic_meitu_2.jpg

从图中我们也看到传统「模式识别」的方法去搭建图形图象识别。它的准确率大部分在 70%-75% 之间,很难突破。并且随着计算模型的复杂,复杂程度越来越高,这些准确度并没有任何的提升。直到用新的研究方法 Deep Learning 之后,让图形图象的识别率从 70% 的一下子到 90% 多,甚至于超越了人眼的识别准确度了。如果你看一些很多的参赛公司,他们的科研成果,几乎每一家公司都能够达到类似的水平,只要你的计算能力和时间足够多,就可以训练它的模型,达到很高的准确度。

 Deep Learning 的基础在于这几年当中有几个重要的发展:

 1. 大数据。

由于互联网的运用,大数据的采集准确度越来越高。这些大数据的覆盖面几乎是非常广泛的,如果今天你要去看所有的这些互联网系统当中,几乎它的 Data 覆盖到全部的人群、全部的国家和地区。所以这个 Big Data 收集了所有准确有价值的,这些是实现人工智能网络的关键。

 2. 计算力。

 没有强大的计算基础,这些数据可能要花上几十年计算,并且没有办法在实际当中去迭代的让这个算法不停的优化。而这些用传统的方法几乎很难做到,就算是你每一个人都搭建一个世界上最快的计算机,也很难满足世界上那么多公司的数据需要。

而英伟达把我们在 GPU 的当中把它发展到深度学习的专业计算机。我们在今年的春天,发布了 DGX-1,这就是用 8 个 GPU 放在一个服务器里面。而这台服务器,我们用新数据总线方式,把 8 个 GPU 的计算力结合在一起。如果今天用大家常用的 X86 服务器做比喻的话,这台机器的计算能力相当于 200 台的计算能力。这样的一个体积比较小、功耗比较低的产品就适合很多人工智能领域当中做研发的需要。有了这样的计算能力,我相信很多的企业就可以有能力自己去搭建自己的 Big Data 的训练了。

自动驾驶:形成闭环计算处理单元

我相信我们第一个点就是做汽车的自动驾驶,汽车自动驾驶是需要很多大量数据进行训练,并且让这个汽车能够去进行图象图形的识别,然后应用在汽车当中,让我们的汽车能够智能化的去自动驾驶。所以说在今天你去看到几乎所有的汽车公司,无论是传统的汽车公司还是新一代的新能源汽车公司,每家公司的研发都在投入大量的巨资建立自己数据的训练系统,让自己的汽车能够去识别汽车周围的设备、周围的物体去做自动驾驶。而自动驾驶当中的步骤其实非常简单,我们总结成四个步骤。

首先要有一个高精的地图,一个很好的 MAP 让你识别自己的路况;一个精确的定位,让你知道你的车在什么位置,然后能够看清楚汽车周边各种各样的物体做出准确的判断,最后能够做出自动驾驶的决策,让你的汽车采取不同的驾驶行为。而这样的一种决策方式,在几乎每一个阶段,最需要的就是「强大计算能力,确保数据准确性」。无论是地图的数据采集,还是你定位的精确性,这些计算能力要非常强大、准确,还要实时,才能保证汽车自动驾驶当中的决策永远是正确的。

4.pic_meitu_3.jpg

 我们在所有的研究当中发现,整个汽车当中无论你收集的这些 Data 有多么复杂,你的汽车驾驶系统一定要采取两种方法做训练模型。一个是让汽车不停的了解交通当中发生的各种各样的状况,发现街道上新的标志,每个车上的可能新的交通工具它也能够及时的更新。这种是每天都会用这样的方法不停的收集数据,训练我们的模型。前端每一辆汽车就是一个数据采集器,汽车本身可以通过很快的计算采取正确的决策,所以我们把前端也引入了 GPU 的概念。我们在计算当中无论你的数据是结构化的数据还是非结构化的数据,这个 GPU 都能够胜任。所以在系统当中我们要把它跟后端的以及前端的结合在一起形成一个闭环,这样我们在任何一个汽车系统当中,无论汽车厂商是什么样的品牌,它都会搭建一个后台系统跟前端系统,确保每一辆汽车在马路上行驶的时候有足够大的信息量去采取正确的决策,做出最安全的驾驶行为。

除了在传统的汽车研究之外,我们也在探索一个新的方法,就是能不能学习和模拟人的驾驶行为。英伟达曾经做过一个训练,想通过人的驾驶行为的模拟去看一看这个汽车是不是跟人一样不需要去懂得那么多的高精的数学模型,无论你的地图怎么样,还是你的汽车路况、状况怎么样,只是根据人的驾驶行为方法学习如何开汽车。这个尝试让我们很惊喜的发现,在这个过程当中可以通过这个训练可以很快的学会开汽车。

 我们希望给大家带来一个新的思路,用 Deep Learning 做很多以前可能我们没有办法想像,无法理解的新领域。我们完全有理由相信,Deep Learning 在很多领域当中可以有很大的突破,这些突破就是打破了传统的科研思路。我们希望 Deep Learning 可以给我们很多的软件工作人员,尤其是我们的工程师或者程序员打开思路,去想像一下「用计算机怎么样去写软件」而不是我们自己写软件。另外一个部分,我想跟大家讲一下 GPU 在新领域当中的一个应用,就是 VR。

VR:将技术推到消费者「眼前」

 VR 的突破在很多领域当中;VR 大概是在 60 年前就有很多人在研究,直到今天我们可以看到 VR 几乎可以走进消费市场。而这最大的一个原因就是在过去的十年当中,GPU 的计算能力大概提升了 1500 倍。这 1500 倍的提升计算量,足以让 GPU 在很快的时间之内渲染更多的增速,让我们的眼睛在 VR 头盔当中体现虚拟现实。

5.pic_meitu_4.jpg

但是虚拟现实当中一个最重要的难题,就是「如何在虚拟的世界当中模拟实际的物理世界」,所以你要在里面融合很多其他的东西。所以你会看到,在很多很多的应用当中,无论你重力的加速度,立体的爆破,还有流体的运动轨迹都可以通过模拟计算出来。怎么开发出让我们的 VR 内容显得更加真实呢?我们做了一个叫作 FUNHOUSE。我们把所有的英伟达各种不同的中间件全部加在这个 VR 的 Demo 里面,我们同时增加新的 VR 的声音。VR 不仅有图象,还有声音,怎么样让声音跟实际当中一样。通过我们的算法把声音和图象、图形结合在一起,所以你看到的这个 Demo 实际上是非常真实的。这个 DEMO 也将在8月份面向开发者公布源代码,希望各位能够创造出更多的东西。

 我们也希望 GPU 在今后能够在更多的领域为大家服务。但是这三个领域,是目前我相信 GPU 能够发挥最大作用的地方,就是——VR、人工智能跟汽车自动驾驶。也希望大家多多在你们的科研当中不停的创新,也希望 GPU 给每一个公司带来全新的商业机会。 

自动驾驶VRAI英伟达
关注极客公园公众号
反馈