格灵深瞳赵勇:把未来一个齿轮一个齿轮地变成现实

摘要

一个低级别的智力能否造出比自身更高级别的智力?

编者注:

本文转载自 Xtecher,作者:张一甲 ,极客公园已获得授权。

点此可获得格灵深瞳项目详情


赵勇,格灵深瞳联合创始人、CTO,本科与硕士研究生毕业于复旦大学电子系,博士毕业于美国布朗大学计算机工程系,专攻计算机视觉(Computer Vision)和运算影像学(Computational Photography)。曾在三菱电器研究所(Cambridge)、爱普生实验室(San Jose)、Nvidia 实验室(Santa Clara)和惠普实验室(Palo Alto)担任实习研究员。2010 年起,赵勇供职于谷歌总部研究院任资深研究员。在此期间,赵勇曾担任安卓操作系统中图像处理架构的设计者,以及谷歌眼镜(Google Glass)最早期的核心研发成员。他还负责探索谷歌未来针对高性能图像分析处理的云计算架构设计。2013 年 4 月作为联合创始人创立格灵深瞳。

奇迹发生了。 

这个东西就像一个怪兽,它藏在一个地方,以前没有人有机会把它身上的幕布揭开来看,直到数据量和运算量上涨了之后,它一下子就露出来了。你不再需要像过去那样,笨拙地去做特征提取、特征分析——因为全部包含在里面了。

15 分钟

出租司机把我放下的时候很羡慕:「呵,姑娘的办公地儿真不赖。」

我笑说:「哪是来办公,只是个访客。」

我在一个春寒料峭的下午走进格灵深瞳。颐和园腹地的红墙四合院,河水凉亭,满目古色。门前空无一人,一只圆滚滚的猫支着尾巴咧着胡须毫不认生地向我迎来。

若不是因为匾上的四个大字「格灵深瞳」早已闻名于耳,谁会相信这是个人工智能公司?

访谈原定下午 2:00 开始,我 1:45 到了。进门碰巧遇见,招呼之后,他腼腆一笑:

「我再利用这15分钟开个短会,可以吗?」

15 分钟之后,赵勇出现在办公室。再接下来的两个小时,他用不急不缓的语速,温和儒雅的声音,讲述了近 30000 字:计算机视觉发展史、深度学习的原理、自动驾驶的实现方式、人工智能和人类智能的各自使命、从谷歌归国创业的缘由、创业以来的自责和欢喜……

这是一位自嘲「生活中偶尔会有交流障碍」的工程师,尽管面对他所熟悉的这一切,他是如此有章有节娓娓道来,「但若去了夜总会,我就完全不知道该干啥,除了拿着一瓶饮料站在墙角看着别人走来走去。」

我抛给他的第一个问题是:可否讲讲「计算机视觉」发展到了什么程度?

他顿了几秒,接着,就着这一个问题,颇具条理地讲了半小时。导致当我终于整理出录音稿时,发现仅第一个问题的答案就有7000字!

他的答案有一个典型风格:

他呈现出无比的耐心和认真,信息量庞大,枝蔓伸展,却又不多一句话。他从广袤的海域开始搜索,思考,逐渐定位到他要寻找的那颗珍珠,接着去定位下一颗……穿针引线,直到完成一根项链,捧到你面前。

第一问:「计算机视觉」发展到了什么程度?

让我试着用通俗的方式总结一下,他关于第一个问题的回答:

正如「学习」是人类的重要智能行为,「机器学习」是人工智能的核心。

我们通过双眼学习、理解大量知识,我们如何教会机器理解它看到的一切?计算机视觉,似乎一直是个撩人心弦的命题。一个三岁的孩子,就可以很清楚地分辨猫、狗,但对于计算机来讲,却一直很难。近几年,两方面让人兴奋的进展发生了:一个是传感器的进展。另一个是方法的进展——神经网络。

「深度学习」近来常被提起,作为机器学习的一个分支领域,它指的就是深度神经网络技术。其动机在于「模仿人脑的机制」来解释数据,例如图像,声音和文本。

过去的机器学习,都是按照两步骤来:第一步,特征提取;第二步,特征分析。把你要分析的对象提取成一个数学向量,把它放在一个向量空间中,用数学工具分析它。这个方法想「进步」很难:要不就把特征推倒重建一个?而换了新特征后,往往之前的分析工具都不能用了。

而深度学习所使用的神经网络技术不是这么玩的。

神经网络最原始的初衷是什么?

让我们来看一个动物的大脑。

动物的大脑是非常好的学习机器,它的运算被分散在很多小小的单元里,我们称之为「神经元」,它们通过神经突触连接在一起,形成了一个非常复杂的网络——看起来,如果我们知道每一个神经元都在做什么,把它们的输入和输出连接成一个网络,并且掌握一个方法去训练这个网络,就能万事大吉了不是吗? 

然而,可惜的是,神经网络并不能做到真正「仿生」。为什么? 

  • 首先,我们的神经网络是假设每个神经元里做一个简单的线性运算。为什么是线性运算?因为我们解不了更复杂的系统——我们要做一个「可解的」网络,所以就凑合吧……事实上,我们几乎确定,大脑的神经元里发生的不是线性运算。所以,其实从第一步,人工神经元就已经落后于生物的神经元了。

  • 第二,我们做的神经网络是一层一层来的。把这一层的结果,输入到下一层,再输入到更下一层。可大脑是有回路的。当然,现在有一些神经网络也有回路,但复杂性是没有办法与大脑比的。

  • 第三,我们的基本假设是,一个神经元的输出只有一个。这个输出分发给下一层的某些个单元,继续进行之后的运算。但我们后来发现,真正的生物神经网络不是这样的,甚至神经突触里面,也有简单的运算功能。

  • 最后看看规模:一个人的大脑差不多有 2000 亿至 4000 亿个神经元,这个数字已经远远超越了人类今天可以掌握的人工神经网络的规模。我们今天人工仿真的神经元,与人脑的神经元的复杂度、规模相比,估计要差至少 5、6 个数量级。

因此,我们越去了解生物,越发现,神经网络离真实生物的现实复杂度差的更远。

那么问题来了:与大脑相差这么远,神经网络还管用吗?

科学家们要用结果说话。 

值得一提的是,过去几年,斯坦福大学计算机科学系副教授李飞飞提出了一个挑战:ImageNet——一个计算机视觉系统识别项目。她建立起了目前世界上图像识别最大的数据库,一个含有 1500 万张标注照片的数据库。任何研究者,都可以用他们的数据去训练自己的网络。这为神经网络提供了史无前例的演练场。

于是,人们对这样的网络进行「监督式训练」——一个网络拿过来,给它很多样本,给每个样本赋予一个结果。(比如,一个样本是一张有猫的照片,输入是这张照片作为像素的阵列,输出是一个答案「我是一只猫」。)在这个过程中,中间每一个参数的产生过程,就是数学求解的过程。人们拿着足够多的样本反复「训练」这个网络,结束之后,参数定了下来,形成了一个极其复杂的非线性网络。 

「训练一个机器神经网络,有点像这样的过程:你先开始有一个初始网络,先不管它长什么样子,你先预设一个地形,但真理是另外一个样子。接着,你拿了很多大量的经过标注的样本,把它丢进去,让这些样本,像一个一个粒子,携带着从起点到终点的使命——每一个样本,都有摩擦力,它们不断优化着每一个参数,从起点走到终点的过程,帮助你一点点重塑了这个网络……当数以百万计、千万计的样本全部走完的时候,最终的地形出现了:你剩下来的东西,就是一个可以执行任务的网络了——Let’s see what happened.(让我们看看发生了什么。)」

奇迹发生了。

这个东西就像一个怪兽,它藏在一个地方,以前没有人有机会把它身上的幕布揭开来看,直到数据量和运算量上涨了之后,它一下子就露出来了。你不再需要像过去那样,笨拙地去做特征提取、特征分析——因为全部包含在里面了。

「包含在里面是怎么实现的?说实话,没有人能够解释清楚。假如这是一片沙漠,猫就在某个沙丘里,你必须让这个照片走来走去,落到沙丘里面。这个过程是语言无法形容的。」

 神奇的是,用这种方式训练出来的这么深的网络,它是有表达能力的。

人们拿着这种方法,去人工智能的各个领域去试,发现几乎在每一个领域里,都产生了显著的突破:比如,Caltech 101最早做图像识别,好多年,人们可以做到 40%,第二年,有人做到了 41%,这个人就可以去拿 CVPR 最佳论文奖了,然后明年有人做到 42% 了,又拿了一个奖……但深度学习进来之后,第一年就做到 50% 了,大家下巴都震掉了!还没喘过气来,又过了两个月,60% 的出来了……然后就呈现了一片疯狂的状态——人们终于意识到:原来深度学习,只要规模足够大,训练足够丰富,它有能力达到一个非常理想的解。

综上所述,神经网络给了我们一些尴尬的结论:

  • 第一, Of course it works,显然,它可以工作;

  • 第二,不是很能解释,它是怎么工作的;

  • 第三,未来新的理论该怎么引导它,比如怎么样可以造出更有效的网络?这个很难;

  • 第四,我们千万不要认为人脑就是这么工作的!深度学习与人脑有很多显著的差别的。有些结果深度学习已经超过了人,有的还相差甚远。

第二问:未来,我们的交通出行将走向何方?

格灵深瞳的雄心是「让计算机看懂这个世界」,但世界很大,所以得一步一步地看。他们首先把计算机视觉应用在安全、汽车以及其他几个领域。

2016 年 2 月 8 日,格灵深瞳宣布了一则新消息:格灵深瞳联合英特尔研究院院长吴甘沙、国家智能车未来挑战赛冠军团队负责人姜岩等一同创办了一家专注于自动驾驶领域的公司——驭势科技。由此,格灵深瞳将「汽车」部分完全剥离出来,放在驭势去做。

过去的自动驾驶汽车,谷歌也好,百度也好,都是纯物理的方法。比如激光雷达:把激光射出去,打到物体后返回来,我们知道光速,就可以算出距离。然而传感器很贵,一个激光雷达 70 万,做出的自动驾驶系统在今天,价格是 200 万人民币/台。

那么,是不是有一天我们可以做一个自动驾驶汽车,成本只比一般的同类型汽车贵那么一点点呢?答案是:我们需要尽量多地用人工智能,尽量少地用昂贵的传感器。 

人是怎么开车的?

我们用眼睛和脑子,这套组合是一对儿黄金搭档。所以,最原始的直觉是:如果计算机视觉做的特别好,是可以「用眼睛开车」的。再不济,以计算机视觉为主,再辅以比较便宜的传感器,看起来是更合理的方案。 

驭势科技推出的自动驾驶方案就是:计算机视觉+毫米波雷达。

毫米波雷达是一种电子雷达,对外发的不是激光,是毫米波信号,很便宜,批量购买的毫米波雷达仅在千元左右。 

我抱着业界对「计算机视觉」最大的疑惑问赵勇:「是否可以预测一下,大概需要多长时间,我们可以用计算机视觉『彻底独立』地实现自动驾驶?」

「没有必要。」他直接说,「从技术的角度,我自己不相信。在可以预见的未来,比如 5 年、10 年,我自己是不会去坐一个只有计算机视觉驱动的车的。我比他们乐观的是,把计算机视觉做的足够好,再配上毫米波雷达,是可以做到接近完美的——至少比人做的好。你把工作的一小部分交给毫米波雷达来做,它也不招你惹你,也不贵,而且做的那么好,干嘛把它赶走?」

事实上,驭势科技的自动驾驶解决方案已验证可行。「我们有一辆车,已经在真实的北京道路上开了一万多公里了。除了担惊害怕,什么都不用干。他们请了一个记者去坐了这个车,在车顶放了几个物体,绕三环开了一圈,下车之后发现东西还在车顶上。它的行驶控制如此温和,比人开更平稳。」

今年夏天,驭势科技,会推出 4 辆骡子车(原型车),2 辆电车 2 辆油车。到了明年此时,计划造 30 辆工程车,然后在全国各地完成 100 万公里的测试。

驭势的自动驾驶产品也将循序渐进推出,先由特定场景出发:

第一种:在完全自然的特定环境。有一些场景,你会十分愿意让机器代替你。譬如北京堵车时,挪一下挪一下的时候,很适合让自动驾驶去做。又譬如停车入库,很多司机不喜欢停车。

第二种:增强环境,限定场景。比如,结构化道路(地上刷了线,有红绿灯的道路);比如,机场的摆渡车、餐车、行李车;比如工厂跑来跑去运材料的车;比如 BRT;比如奥林匹克公园那些可以呼之即来载着你从一个景点到另一个景点的车……

说到这里,赵勇试着对未来的交通发展做了一个预测:

  • 2020 年之前:不会出现真正的公共道路上的无人驾驶,因为法规不同意,但辅助驾驶会出现,机器会参与到人开车的过程中;

  • 2020 年至 2025 年之间:辅助驾驶应该会普及,很多新车自然就有这种功能了。它的仪表盘上有着大大的绿色按钮,你按它一下,它就自动进入到自动驾驶状态;而此时,无人驾驶法规开始通过,无人驾驶的汽车会开始出现在一些公共道路上。它的模式很可能是局部的,比如,最后五公里近距离的运输,就像毛细血管一样,作为城市公共交通的补充;

  • 2025 年之后:会发生剧变。经过 10 年的影响,很多乘客已经接受了一个现实:开车这件事还需要人开?它将成为一个财务上不理性的事情。2025 年,可能会出现这样的一种新的交通形态:说不好是公共交通,还是私人交通,人人都可以共享它,但它比出租车还私人(连司机都没有)。

赵勇开玩笑说,驭势的第一个产品,广告词就可以用「享受塞车」:别人都在抓耳挠腮的时候,你干什么都行,你可以看书、睡觉、看朋友圈。

第三问:人工智能 vs 人类智能,未来将如何分工?

人工智能超越人类了吗?

如果没有,人工智能将注定在某个时刻超越人类吗? 

「关于人脸识别,我并不完全相信人工智能超过人类了。比赛的基准是非常死板单一的数据库,但人不是这么识别的。我们常说,对熟悉的人,化成灰都能认出来,一个背影都能认出来。今天的人脸识别技术离真正的人的能力还有一定的差距。当然,在另一些领域,人工智能已经超越人类了。比如我们做了一个汽车识别产品『威目』,它可以识别 5000 种车,我们可能很难找到一个如此懂车的人可以识别出这么多。」

「人的智力是很值得尊敬的。」赵勇反复说。而人工智能最大的好处是:「它可以拷贝。」比如,安防监控,北京已经有 200 多万摄像头,就算 2 万人去看,也看不过来。用软件去理解摄像头拍下的图像,只要一个摄像头能用,就可以拷贝给所有摄像头;再比如医疗,培养一个好的医生很难,用人工智能去代替医生、辅助医生,就可以把医疗服务以很低的成本复制到各个地方去。

那么,人是高等动物,它比低等动物高在哪里呢?人和老鼠相比,我们高级在哪?

他给出了如下的回答:

「人的大脑思维中,最底层的是‘感知(perception)’,例如视觉、听觉、嗅觉、触觉和味觉。仅仅为了实现感知这件事情,就耗费了我们大脑 70% 的资源。而这 70% 里面,超过 90% 用在了视觉感知上。我们只剩下不到 30% 的神经元,用来做其他高级的东西。」

「接下来『认知(cognition)』,比如控制规划、逻辑推理和知识的存储与检索。今天谷歌的 AlphaGo 可以在围棋游戏中战胜人类世界冠军,以及 IBM 的 Waston 问答机器人可以战胜人类的百科问答冠军就是两个成功例子。而这些例子正是利用深度神经网络以及知识图谱等技术实现的。其实这些还不算最难的。」

「感知和认知,基本上都属于『智能(intelligence)』的范畴。其实很多动物也有很强的智能,甚至不亚于人类。但是人类之所以能够在几百万年中,从一种再平凡不过的普通动物,演化成为万物的主宰,依靠的正是我们超群的『意识(consciousness)』能力。什么是意识能力?想象力、创造力、虚构和抽象的能力,情感,这些都属于意识能力。」

「在这里我想强调人类意识中『虚构和抽象』的能力。在所有动物中,也许只有人有这种能力。除了发明一些更具体的实物,如弓箭和房屋,我们还发明了虚构和抽象出来的事物,比如宗教、国家、法律、金钱以及价值观。哲学、数学、艺术、法律和政治都是抽象思维的作品。这些伟大的发明主宰了人类社会最重要的行为和关系,正是它们,使得人类可以超越个体和部落进行更大范围的灵活合作,这种合作,使得人类以超群的速度不断进化,最终以我们弱小的身躯,成就了真正的『万兽之王』。」

「另外我想强调一下『情感』的能力。人类为什么多愁善感,有喜怒哀乐?按理说,一个理智的机器应该保持情绪稳定。我们常说一个人感情丰富、情绪不稳定、太多愁善感、太爱哭、笑点太低。这些可能都是个性的弱点。可是你想想看,在所有动物中,人的感情是最丰富的,但是我们在物种进化的竞争中笑到了最后。在这个过程中,情感到底是我们成功的原因,还是结果?」

「事实上,意识层次的超越,才是人之所以超越于其他生物的核心原因。今天我们的人工智能技术虽然在感知和认知层面发展很快,但是在意识这个层面,我并没有看到任何微小的进展。我们知道,人之所以伟大,是因为我们不断自我进化,而自我进化的引擎,就是想象力和创造力。在我看来,意识才是真正的『强智能』。」

「好莱坞创造了很多同时具备感知、认知和意识的机器人,例如大白。这种科幻(同样是伟大的人类智慧结晶)其实跟我们今天的科学现实之间有很遥远的距离。今天在科技行业,有些公司强调说他们是做『强人工智能』的公司。可是就我了解的情况来看,他们中很多人对人工智能几乎一无所知。」

有人提出「奇点到来」的观点:人工智能发展这么快,会不会到了某个时候,人工智能比人聪明,越过了那个奇点,就会出现一个非常非常可怕的未来?

赵勇会反过来想这个哲学问题:「一个低级别的智力能否造出比自身更高级别的智力?」

「事实上,我是怀疑的。我没有看到任何物理证据在往那个方向走。我认为今天机器做的所有事情,都在感知和认知层面。最终,感知层面,机器会超越人:车开的比人好,看医疗图像看的比人好,扫地扫的比人好。但是,出现一个东西,比人更风趣、更睿智,还能发明比人更好的东西、还有合理的喜怒哀乐,可能吗?我觉得,既造不出来,也没必要。反正我是不会做那件事情的。」

正如他在一次演讲所说:「我觉得未来20年,我们会持续关注在『弱智能』上,我们是一个『弱智』的公司,我们将为人类提供越来越多的有用的『弱智』产品。」

「人总是有它独特的价值存在的。我们为什么要发明一个东西,来挑战我们最珍贵的那一部分价值呢?」

乔布斯曾说:「我一直相信技术存在的最大意愿,就是帮我们跨过障碍。」

显然,不是制造障碍。

E6B82BDB-CAEA-40A6-8870-7F36541994A4.png

后院的橙子

赵勇住在格灵深瞳四合院对面的小楼里,足不出院,醒来就工作,累了就睡觉。

「我是一个很单调的人。」他说,「在微信看见朋友们写文章去哪玩,说句实话,我挺羡慕他们。我已经没有一个正常的生活。」

年初,赵勇在美国过年,住同学家。

因为时差,第一天早上,他 5:00 起床,坐在后院里。院子里有些果树,树上有橙子,他摘下来,剥了皮吃,很甜,而且没有籽儿,他连吃了 5 个。

在那个瞬间,一个念头闪过——冬天穿T恤,吃到天然的甜橙子,早上带孩子去图书馆,上游泳课,没有悬在头上的压力……加州生活原来挺美好的。

但是,他又一想:「我真的喜欢这种生活吗?别忘了 3 年前我就是从那种生活离开的。彼时太太还怀着孕,我在最不该离开的时候离开。如果我要的是每天吃橙子、晒阳光,那彼时简直轻而易举。」

那时,赵勇已在美国买了一栋房子,在后院修了一个秋千。他当时臆想的画面是,可以在傍晚时分坐在那里看书,凉快又惬意……可事实情况是,当房子买好,过了两年,他发现自己甚至一年都不会走进后院几次。地上的叶落很厚,已经腐烂了,要打扫两个礼拜才能清空。 

为什么呢?他为什么没有过上臆想中的生活? 他干了什么事情呢?

答案是显而易见的:

那座房子的客厅,被赵勇变成了实验室,客厅里装了很多摄像头,好几台电脑。在那间客厅里,赵勇做出了格灵深瞳最早的原型。 

「我想,我还是一个被我所做的事情,深深吸引的人。」赵勇说到这里,流露出无比的真诚,「如果有人用工作狂来形容我,我也可以接受。」

临近采访尾声时,他反反复复讲起了一个词:privilege(特权)。

「我们处在一个特别好的时代。我在念书时憧憬的未来想做的很多事,格灵深瞳现在都在做。很多十年前规划的事,十年后发生了,而且我们还走在前沿,在推动它走。想到这一点,就感觉是一个 privilege (特权)。比如 3D 计算机视觉,念书的时候,是我自己选择做这一块,老板也不太懂这个。我做了一个毕业论文出来,今天格灵深瞳还在推这个东西,如果它成功了,我会觉得挺自豪的。这个技术本身,像一个孩子一样,既然我当时选择了它,我就得把它养大。」

1F4B079F-9240-4FCE-8794-EFF19D3C89FB.png

「露馅儿」

行文至此,我很想描述一个瞬间。那个整个访谈过程中,赵勇最开心的瞬间:

格灵深瞳最早在民宅里工作,发展到十四五个员工时,他们考虑换办公室。机缘巧合,他和 CEO 何搏飞兴奋地发现了位于颐和园的这个院落。

「我和何搏飞希望给公司小伙子们一个惊喜,先把公司装修好。然后装作一次春游,把大家带到这里,宣布这个好消息。可是,一天我没有忍住。何搏飞不在,我打开了卫星地图,关掉了道路,跟小伙伴们说:我们的新 office 在北京一个绿色、有水的地方。他们一下子就猜到是颐和园。后来我用双手在地图上,放大、放大、放大……他们就透过那个地图,看到了这里。小伙伴们开心极了!可这事儿是我说漏了嘴,我就拜托他们向何搏飞保密,装作完全不知道那里,可小伙子们忍不住了,有人周末就跑过去看了,甚至拍了自拍照……再后来,我们来这里春游、烧烤,到了约定的时刻,何搏飞隆重宣布了这个消息——哇,所有人都『惊喜』的恨不得晕倒在地上——何搏飞一看就知道露馅了……」

聊到这里,我们大笑。这个春寒料峭的下午,这样子的瞬间让人心情一暖。落地窗外,还没到莺飞草长的时节,他回忆着的那一刻,是刚刚启程的浪漫瞬间:没有财务、产品的压力,有大把大把的时间用来研发、憧憬、梦想……彼时,创业的百种滋味还没有扑面而来。 

我问他:「琐碎的研发工作,是否会逐渐模糊掉目的地的浪漫、趣味和神奇?」 

他笑答:「好的程序员,你让他写一段程序去直击问题的灵魂,比让他去跟一个女孩搭讪容易的多。说实话,我们今天做的某些东西看上去确实让人觉得:真变态!一种科技带来的变态感。我们的工程师常自愿工作到很晚,他们被这些事情本身回馈到了。」

前路风景漫长未知。一墙之外,这个世界总是对高科技短期高估,堆积了太多期待。而科技的道路却总是真实漫长反复的。粮草已备足,目的地在那里,无论是格灵深瞳,还是驭势科技,都还只是刚刚鸣笛出征而已。

在一次演讲的开场白,他开了个玩笑:「我感觉我们科技界一直在拖科幻界的后腿。他们可能比我们早活了 100 年。好莱坞比我们早活了 30 到 50 年,我们是活在当下。我个人觉得我可能比大多数现代人早活了 3 到 5 年吧。」

他说,「科幻作家们可能已经着急了,可我们要把未来一个齿轮一个齿轮地变成现实。」

1DA858E3-FAF1-4605-97B2-735C0F0D19DB.png

Xtecher.jpg

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。