依图联合创始人：AI 的格局，场景和未来

我是 Leo，依图科技联合创始人，UCLA 统计学博士，从事人工智能研究 15 年，曾在深度学习奠基者 Yann LeCun 教授实验室担任研究员，2010 年获得 PASCAL 图像目标检测比赛冠军，2017 年获得美国国家标准与技术研究院 NIST 和美国国家情报高级研究计划局 IARPA 人脸识别全球冠军。

最近，大量关于人工智能的研究报告，投资人、创业者、学者热议 AI 的趋势和对社会各行业的影响，不乏对 AI 技术和产业发展的误解，很容易有误导性。宏观上，议题大体分为三个方面：AI 是多大的事？谁是真正的 AI player？AI 的场景在哪里？

从科学研究者和创业者的双视角谈谈我的主要观点：AI 的边界，只有领军人物才可能准确把握和拓展；顶尖企业，因为远见造就势能；AI 的未来，无与伦比，没有历史可以借鉴，也没有权威可以预测。

「S」曲线看 AI 格局

我对 AI 发展历史和预测，用上图的」S」形曲线建模（Sigmoid 函数，恰好也是用来刻画神经网络中神经元的 activation function）。横轴表示时间，纵轴表示机器智能水平。曲线上的点表示某个时间点的全球最高智能水平。2013 年开始是新 AI 时代（深度学习），2013 年前的机器智能发展水平相较于近 5 年的发展基本可以忽略不计。红线代表悲观派（AI 退潮、AI 泡沫等），2017 年之后很快出现发展停顿；蓝线代表乐观派，2017 年之后还有快速发展。值得强调的是，蓝红两条曲线对 AI 历史有相同认识，但市场上很多论调或研究报告看到的是另一条曲线，很大概率调研看到的 AI 水平离最高水平有很大差距。分析 AI 格局的不同立场，可以通过解读 S 曲线的三个方面：

1、AI 过去的发展以及 AI 未来发展程度和速率的预测

2、AI 发展水平和商业场景的关系

3、各个 player 的所在位置和差距

具体来说，我们先从 AI 过去 5 年的发展情况谈起，以人脸识别作为例子，把人脸从 N 个人中找到的概率在 95%，纵轴就是可识别的规模（N 的大小）。

技术不是趋同，而是会放大差距、解锁场景

2017 年人脸识别最高水平可识别规模在 20 亿人，大概比 2016 年可识别千万提高两百倍，比 2015 年提高了数万倍。在 2017 年全球最权威的人脸识别测试中（NIST），我们比第二名 Vocord 团队，在千万比对测试上领先 2％（Vocord 在另一测试集比腾讯优图高 10%），这个就是大家常说的技术水平趋同，高一两个百分点没有意义（引申出难兑现成竞争价值）。这个误区需要从两个方面解读：

第一方面，算法在亿级、十亿级比对的领先会快速放大到 5%，20%。这是一般的算法性能曲线的规律。除了可识别规模上的重大差异，还体现在难（hard）的数据上的识别率差异。从算法经验来说，黑人、女性、小孩、大年龄跨度、遮挡等是较难识别的群体和类别。在这些子类上，不同算法之间的性能差异会更大。

超大规模下的评测本身就是一个不简单的学术命题，还需要大量的数据支撑，真正能观测到 20 亿数据下性能的人少之又少，例如美国很难建立 20 亿级的测试集。这不是访谈一些人脸识别研究从业者就能获得，这是误区的第一个来源。

第二方面，算法提高，扩大可识别规模，就会解锁更多商业应用场景。百万、千万识别规模对应的是身份认证场景，远程认证、手机解锁都属于此类。「技术无差异」的论调在这个场景下倒是可以成立。但安防刑侦破案对亿级和十亿比对有刚性需求，在这些场景下，不是多识别出几个罪犯的问题，而是找出来概率差别十倍以上的，几乎就是行与不行的问题。「非关键性应用」的论断误导性极强。

在最新的安防案例中，万路甚至十万路摄像头视频的人脸搜索、归档对算法有极高要求，假定每路人流为万，要在万路视频中，搜索性能相当于要求算法百亿、千亿规模上的可识别率。这比其他场景的性能要求再提高千倍。以不同算法为基础的产品端体验差异就被同比例放大。另外，全球人种的识别，是反恐、出入境业务对识别的覆盖面要求是很很高的。

总结来说，99% 识别率的算法和 99.99% 的算法，区别在于可解锁的应用场景。这些新的场景解锁，是最先锋的算法团队和垂直领域的开拓者（比如公安系统的创新团队）共同努力，也不是访谈一般的安防从业者就能感知变革的最前沿，这是误区的另一个来源。

技术水平的三个层次 VIE：Vision（远见），Insight（洞见），Execution（执行）

技术实力该如何评估比较呢？最常见的是测试比赛的冠军、实际案例、招投标 PK 成绩、论文等。这些或许能区分是不是前 10 名的 AI 团队，但很难区分最好的团队。我对技术的三层解构：Vision，远见，或战略格局、技术趋势判断；Insight，洞见，算法本质和客观世界分布规律的理解；Execution，执行，算法实现、数据获取、工程计算平台等。具体来说：

最基础的 Execution 就是算法做到什么水平，特别是大体框架已知后，能快速实现，包括基础算法、场景数据、计算实验平台、产品应用等。比如，AlphaGo 出来后，多快能复现；语音识别多快能追上全球最好的结果。顶级的 Execution，不是开源的算法平台可以弥补。特定领域的专家能帮助团队快速提高对应领域 Execution 的水平。这个层面，中国团队应该是世界一流的。Google 如果是世界第一的话，不论是下棋、人脸识别、语音识别等，中国的水平应该不会比 Facebook、Microsoft、Apple、Amazon 等差，甚至某些方面稍强些。大部人比较技术，基本就在这个层次。但更重要的、威力更大的是上面的两个层次。

再往上一层是 Insight，考察对技术的深刻认知。包括算法模型的数学解释、客观世界分布规律的独到见解。Insight 指导如何使用数据、计算力（就是指导如何使用算法甚至创新算法）。这层决定能不能比 Google 做得更好，或者能保持同一发展节奏。假定拥有深度学习算法框架、海量数据在同样水平，但是大家对算法性能调教还有巨大差距。以人脸识别为例，我们使用了 2 亿张人脸图片（几十亿张图片的子集）训练，有效模型参数达到 10 亿量级，利用对人脸这个对象的属性先验的合理假设，包括光照、年龄、种族、运动模糊、成像解析度等，模型定制、数据如何组合、计算如何加速在性能调优和模型学习效率上（就是上面提到的 Execution）都有重大差异。这就是为什么拥有算法、算力、数据条件的互联网巨头也不见得能在单项 AI 任务上能做到全球前三。

Vision：预测发展趋势、定义未来方向，想象对生活、生产的影响。这除了需要对技术的深刻理解，还需要对技术的创新能力，以及技术商业价值的想象力、创造力。技术的远见，回答 AI 的场景在哪以及多快到来。

强的 Execution，Insight 肯定不错，但可能毫无 Vision；最强的 Vision，Insight 肯定一流，但 Execution 可能很差。VIE 都很强的团队全球极其稀缺。用深度学习领域最强的两位大师 Hinton 和 LeCun 谈一下我的感受。在 2010 年前，学术界不少人已经在谈大数据对机器学习的重要性，Hinton 团队 2012 年在 LeCun 发明的算法基础上，用了百万的训练数据，在 ImageNet 上取得世界级的突破性进展；同一时期，LeCun 团队只用了不到十万的数据。但是在 Hinton 公布 ImageNet 结果的头两个月，LeCun 团队没法重现 Hinton 用自己算法的实验结果。在 Hinton 公布算法实现和技巧后，LeCun 团队的结果就轻松超过了 Hinton 团队的水平。

两位大师都拥有超一流的 Vision，在深度学习方向上坚持三十年。但是他们 Vision 的差别以及以此带来的信念差别使得 Insight 的差别（是否追求更深刻见解）在当时可能是巨大的，对深度学习算法发挥的突破条件包括训练数据规模、模型正则化实现、activation function 选取、GPU 计算等的理解还有显著差异。这些在当时，原理还不清楚时，可能完全是凭着 Hinton（包括那一期超强的博士生）的直觉。这种 Insight 的差距，使得 LeCun 团队已知所用算法框架和目标性能但未知关键实现时，也不能重现结果。但之后，LeCun 团队拥有更好的 Execution（大规模系统性调优），能在短时间内算法性能超过。这种最牛高手间信念的微妙差异，到底来源于什么，值得深思。

为什么 Vision 很重要？就像雷达，对别人来说是盲区，Vision 让你看见，看见所以相信，相信所以平静。不仅以此获得战略优势，还有定力，排除诱惑和干扰。

Vision 如何辨别呢？非常难，甚至几乎不可能，只能由同样有 Vision 的人欣赏。就像 taste 难以打分一样，只能由同样有 taste 的人欣赏。Vision 带你看到的，就是 99% 的专家同行都看不到、不相信的。所以，伟大往往和误解相伴。LeCun 在深度学习被实际测试数据验证前，也很难被美国主流学术圈认可，甚至发表顶级会议都不是简单的事，可如今，几乎所有的论文都要贴上深度学习的标签。

但是判断过滤没有 Vision 的团队，倒是有迹可循。一般来说，无论学术还是创业，伟大的突破，都需要多年前后一致的投入和深耕。隔年换领域或者什么模式都在做的（垂直、平台等），归类为没有 Vision 应该没什么问题。

有了 VIE 的拆解，我认为，AI 新时代的壁垒只有人，最顶级的人。领军人物对 AI 技术和商业边界的未来分布判断无法替代，决定 AI 发展基本要素（算法、算力、数据和场景）的所需程度和权重。拥有顶级 Execution 和 Insight 的团队，最知道对算法有效的数据在哪、如何标注使用。拥有顶级 Insight 和 Vision 的团队，最早知道技术的突破带来最具商业价值的场景在哪以及何时到来。

AI 未来：没有历史可以借鉴，也没有权威能够预测

谈了 AI 发展，技术如何解构，谈谈 AI 的未来。基于深度学习的 AI 新时代，大大不同于 30 年历史上的 AI，这是被各种应用、在实际场景、大规模数据验证过性能的技术，而不只是理论或概念。尽管过去 5 年的发展，对得起人们的期待，今天，还有不少人担心新 AI 像过去一样很快会退潮。但我认为，AI 新时代只是开始。我从新 AI 的三个特性简要阐述：

1、AI 是全新的维度。这是最重要的，决定 AI 到底是多大的事。

AI 技术如何创新发展，如何变革商业，没有历史可以借鉴，也没有权威能准确判断。AI 不仅仅是一个技术，AI 突破还能突破所有技术包括人机交互、搜索、机器人、芯片计算、医学、制药等科学领域的几乎所有学科。

2、AI 的发展速度快、跳跃性强

从 S 曲线中，可以看到过去 5 年，AI 的发展及其迅猛，单门类（人脸识别）算法有了万倍的增长。但我对未来更加憧憬，即 S 曲线中 2018 年之后的曲线有多陡。AI 发展带来的多维度技术和各场景深度结合、叠加会带来更有冲击力的体验。从多技术维度来说，从视觉，到听觉、语义理解、运动控制会在之后几年都会快速突破；和芯片结合，端智能渗透到与用户的最后 30 公分的交互体验，从 Internet Of Things 向 Internet Of Intelligence 跨越，让智能无处不在。

3、AI 领先一步，会带来巨大势能

在 S 曲线中，处在不同位置的团队，优势不只是横轴时间的差距，而是技术领先带来的累积效应（曲线积分）以及更多元（多条 AI 技术曲线）AI 技术的叠加，这使得 AI 能有跨行业的摧毁性。不仅仅决定某个行业，第一名和第二名的差距或位置关系，还能使得 AI 领先的行业的领导者撬动 AI 意识落后的行业。

AI 未来，无与伦比；因为看见，所以相信。

「S」曲线看 AI 格局

技术不是趋同，而是会放大差距、解锁场景

技术水平的三个层次 VIE：Vision（远见），Insight（洞见），Execution（执行）

AI 未来：没有历史可以借鉴，也没有权威能够预测

最新文章