Testin云测陈冠诚：探秘人工智能背后的硬核英雄｜IF X

我们正在人工智能时代的前夜，从上世纪五十年代的达特茅斯会议至今，人类花了漫长的时间去实现让人工智能降临的三大条件：算法、算力和数据。三者中，新的算法让科学家们有着智者般的光环，算力的突破则是 ICT 巨头们相互炫耀的成就。只剩下数据，这个最为重要且庞大的领域，开始有越来越多的人好奇数据的生产过程。

随着人工智能产业落地的发展加速，应用人工智能对优质数据的渴求越来越强烈。「下一个十年，人工智能需要更好的数据」Testin 云测 CTO 陈冠诚这样坚信。过去十年中，这个行业出现了互联网数据—数据集—众包数据—定制化等商业模式，随着人工智能发展到不同的阶段，对数据服务也提出了不同的需求，以往层层外包、同质化严重、数据质量和安全少有保障的「数据工厂」，正逐渐被淘汰掉。

每个行业都有其生命周期，也有其上下产业链，我们所能看到的是，数据服务产业正跟随人工智能来到了关键的产业上升转型期，整个行业将豹变，未来十年的人工智能需要什么样数据服务？我们邀请了陈冠诚来讲述答案。

以下是 Testin 云测 CTO 陈冠诚在 GeekPark IF X 上的演讲实录（经极客公园编辑整理）：

大家下午好！

今天大家听到的搜狗同声传译，还有傅盛刚刚提到的猎豹移动机器人，其实都是人工智能前端的应用，大家有没有想过，这些光鲜的人工智能应用背后有什么有意思的故事呢？这是我今天想要跟大家分享的主题。

其实 Testin 云测经常跟 AI 企业同台获奖，但可能在座很多观众对我们没有特别了解，而这也是我今天跟大家分享的目的。

首先问大家一个问题，大家身边有哪些人工智能应用？其实我问这个很傻，因为大家马上能想到很多身边耳熟能详的应用，比如说人脸识别、语音帮手、智能家居、智能音箱、自动驾驶等。

我前几天刚从杭州出差回来，住了一个很有意思的酒店，名字叫阿里未来酒店，这个酒店号称是无人职守的，提供的都是机器人的服务，我进去的时候从前台开始就不需要人工服务了，我只需要拿我的身份证刷一次卡，进行一次人脸识别，它就可以正确识别出来，我就是那一个想要入住的旅客。

同时酒店也没有给我一张房卡，它告诉我只要在房门门前进行一下人脸识别，就可以开门了。进去之后可以用智能音箱进行语音的控制，控制房间里的灯光和电视机频道，你还可以进行闹钟的设置，可以控制窗帘的开关，非常方便。

但是，这些其实都是前端，前端就是跟我们用户交互的应用，大家有没有想过，这些应用背后到底是怎么实现的？我相信在座很多人都听过人工智能三要素：

1、算力

2、算法

3、数据

如果我们把人工智能比作一个个学生，老师自然是它们背后一个个实现这些机器学习算法的工程师，老师去教学生自然需要教材，教材就是我今天想要跟大家分享的数据。

从我们自己从小到大的学习经历来讲，我们学过典型的语、数、外，非常多门类的学科，一个好的教材其实是很难得的，那个时候可能大家趋之若鹜的是名校出的一些非常好的教材，或者课外辅导教材，大家都认为这样的教材有保障，对教育学生有很好的效果。

其实高质量的 AI 数据也有一样的效果，为什么我们说制作一个好的教材、生产一个好的 AI 数据很困难呢？给大家看一个例子。

这其实是云测数据曾经制作过的一些教材或者数据，里面包括图像、视频、文本，在这些大类下面还有纷繁复杂的需求。

比如用天津话说的英语、用四川话说的法语，这个虽然听上去很奇葩，但是这个是真实出现过的例子，比如说不同人种的人脸数据等，比如说你从大段的文字里面去摘取里面专业的形容词、修饰词。这些 AI 应用的落地本身是在各个场景下的，我们如果把人工智能看作是一个学校里面不同的学生，他们可能都有不同的性格、脾气、特长、擅长的领域，这就意味着如果我们想要教好这些学生，我们的教材必须能够适应各种各样专长、领域教学的需求。

这样的话，老师才能够更好的因材施教，把这些学生教得更聪明、更专业，我给大家看一个例子，这张图其实一目了然，有蓝天、白云、道路，上面也有车道线，中间有一个行人。

从自动驾驶研发的角度上去看，如果你要训练一个好的自动驾驶的算法，你这些算法的教材里面，如果包含了这一类数据的话，训练出来的人工智能的算法是很容易正确识别出来，道路中间有一个行人，接着做出踩刹车或者是减速的反应。

但是，如果这个行人撑了一把伞，而你教这个 AI 机器人的教材里面，本身没有包含这个场景的话，很有可能出现一种情况，算法无法正确的识别在道路上撑了一把伞的行人。

要解决这一类的问题其实很简单，只要在你的教材里能够覆盖到这种场景。

但是，真实的自然场景其实会更加的复杂，雪天、雨天、老人、儿童、不停的车型、车道线、信号灯等等各种各样的场景都必须要覆盖到，甚至是如果马路上突然滚来了一个皮球，算法都必须要快速、正确的识别出来。而这些还只是 AI 落地当中的冰山一角。

对于 AI 来说，多样化的场景，就像是一个个学生一样，它需要我们的这些教材，或者说我们这些数据，不仅要覆盖到，而且还要求精度足够的高。这样的话我们这些 AI 算法背后的工程师，或者说这些老师，才能够更好地因材施教，把这些学生教成各个领域里面出类拔萃的学生。

我们把这些质量高、针对性强的数据叫做是好的数据。我们怎么区分一个数据的好坏呢？其实在这个行业里面，我们很容易把它分成三个维度：

第一，效率

第二，安全

第三，精准度或者说质量

我一一给大家解释一下，我们先聊一聊效率，大家知道人工智能这个行业，其实迭代的速度会非常快，刚刚傅盛也提到他们做猎豹移动的机器人，每一代的机器人可能都是不一样的，这么高的迭代速度，其实对于你怎么高效率获得高质量的据作为教材，提出了非常高的要求，就是效率这个维度。

另外一个维度是安全，大家知道现在公民的隐私越来越受到关注和保护，我们如果要真的去做一个好的数据，作为 AI 算法的教材，一定要注意保护好公民的隐私，且获取合法合规的授权，来保证你拿到的数据是没有问题的。

然后就是质量，这个其实是非常显而易见的，但是我唯一要强调的一点是说，因为整个 AI 现在落地场景的多元化，所以其实整个行业对于好教材或者是好数据的要求，必须是你能够在你覆盖的所场景下质量精准高。

可以说作为人工智能的三要素，如果没有数据或者是没有好的数据，人工智能肯定是没有未来的。今天的大主题其实是下一个十年，我们知道如果想要展望未来，我们先要更好地回顾一下过去，看看我们有什么可以借鉴的地方。

我们跟大家先分享一下，整个数据的行业来龙去脉，其实我们知道整个互联网经过了几个浪潮，比如说 PC 互联网、移动互联网、智能互联网或者说下一代的智能物联网 IoT、AIoT，我们去看最早的时候，其实行业里面通过互联网已经沉积了很多用户的数据，比如说用户的点击和浏览的数据。

这些数据能够干什么呢？其实大家今天已经享受到了非常多的应用，比如说你在进行新闻浏览的时候，它的推荐引擎会利用你过往浏览行为、点击行为给你推荐你感兴趣的内容。

另外就是通用型的数据产品，我给大家举个例子，比如说你可能是一个 APP 的开发商，或者说做了一个 APP 的公司。然后你沉淀了很多用户的数据，比如说你的用户可能上传了很多用户的头像。

有一天你说我想要加一个人脸识别的功能在我的 APP 里面，你会怎么做？你可能想我先用用户已经授权给我的头像的数据来训练出一个人脸识别的引擎行不行？可能一开始确实能够做出一个不错的算法来，但是随着应用的深入，你会发现用户提供的这些通用型的数据产品可能不能满足人脸识别的精度要求。

我给大家举个例子，人脸识别最典型的要求是一个实体，比如说单个自然人在多个角度的照片，而用户上传的头像很多的时候都是单一角度的，怎么解决这个问题？如果你要做这样一个人脸识别引擎的话，你可能需要采集同一个自然人不同角度的照片，这个时候可能就诞生了第三种方式——众包数据的服务模式。

什么概念呢？比如说我们在一个众包的情况下，发布一个悬赏的任务，这是一个付费的任务，所有愿意参与付费众包任务的用户，按照你任务的需求，拍摄了多个角度同一个人的照片，然后把这个照片授权给你，让你用来训练人脸识别的算法。

但是，再过一段时间，如果你整个人脸识别的精度想要更高的话，你可能会发现一些问题，比如说众包用户上传的这些照片的精度可能是不够的，比如说众包用户用的是 400 万像素的摄像头，但是你的算法工程师告诉你，必须要 800 万像素的摄像头，而且还要有特定的光线的强度、角度，才能够做出一个真正在各种场景下都能够使用的人脸识别的引擎，这个时候就诞生了定制化的数据服务。

我认为，从我们的角度去看这个行业的话，未来的 10 年定制化的数据服务，就是整个人工智能行业里面最主流的方式。

我们再聊一聊，什么是定制化数据，或者说定制化数据的整个发展趋势里面最重要的哪些内容，其实我个人认为会有五大块：

第一，设备的定制化

第二，场景的定制化

第三，样本的定制化

第四，工作的协同化

第五，工作的专业化

我给大家举一个例子，我们先聊一聊设备的定制化，还是以目前非常火热的自动驾驶行业为例，在 20 年前最早研究自动驾驶的其实很多是高校的教授和学生，他们在做第一代自动驾驶方案的时候可能只用一个摄像头来进行道路、车辆、行人的识别。

随着技术和行业的发展，慢慢地从单摄像头的方案过渡到了多摄像头的方案，随着行业的进一步发展，有一些人选择了多摄像头纯视觉的方案是不能满足要求的，我们必须引入更多专业定制的设备，比如激光雷达。

我们先不去争论在自动驾驶行业里未来到底是纯视觉的多摄像头解决方案，还是摄像头+激光雷达的方案，哪一个会成为主流，但是我们去看的话，只看算法落地的效果，多摄像头+激光雷达这种多维数据组合，用定制化设备进行多维数据组合的算法，精度确实得到了更多提升，这就是我们认为越来越多定制化的设备会出现在数据生产过程中的原因。

第二个趋势，场景定制化。AI 一个很典型的应用是安防领域，如果你想要生产非常高质量、能够覆盖更多场景的数据或者教材，最高效率去实现这种场景覆盖的方法就是搭建一个专业的场景实验室，然后你去人为的模拟各种各样的光线强度、角度，以覆盖不同的场景，甚至是长尾场景的数据需求。

第三个趋势，样本的定制化，我们知道今天很多 AI 应用都是以人为中心，人其实是一个非常多元化、多样化的物种，比如我们有黄种人、白人、黑人，比如说我们有各种各样的方言，像普通话、四川话、广东话等等，我们还有很多不同年龄段的圈层，比如说年轻人、老年人、儿童。AI 具有普惠性，如果你想要你做的 AI 服务好这些人群的话，就必须为这些样本考虑，覆盖各种各样的样本。

第四个趋势，工作的协同化，这里面可以给大家分享一些背后的故事，在我们内部，整个数据制造的生态大概会有 30 多个环节，这些环节参与的人员、角色是多种多样的，比如说产品经理、采集人员、标注人员、审核人员、质检人员，以及提出需求的算法工程师、AI 应用的产品经理等，如何让这些人更好地协作对于整个工作协同效率的提升提出了很高的要求。

第五个趋势，行业背景的专业化，不知道大家有没有了解过 X 光片诊断机器人背后是怎么实现的，如果你要去制作一个能够训练出一个好的 X 光片诊断机器人的教材（数据），你有可能需要副主任医师以上级别的人，才能正确的标注 X 光片里面到底是什么疾病，这种专业的要求发生在医疗、教育、法律等非常多的细分领域上。

一个 AI 应用的成功直接关系到一个企业的效率、用户的感受、产品的问题，如果我们说 AI 正在改变这个世界，其实从落地的角度上看，驱动 AI 改变世界的背后是数据正在发生作用。

Testin 云测一直秉持着一个独立第三方的行业角色。在移动互联网时代我们是云测试的开创者。在人工智能产业化落地的大趋势下，我们以人工智能三要素之一的数据为抓手，成立 AI 数据标注品牌-云测数据。不到两年的时间，云测数据已经发展成为国内 TOP 级的数据标注服务商。现在我们在华北、华东、华南有着自建的数据场景实验室和数据标注基地，目前有着千人规模的全职标注人员团队，来做整个 AI 数据的生态。

除了这些硬件之外，我们也有行业领先的自研数据标注系统、数据采集系统、数据审核流程等等，通过专业的项目经理来把控，每一个数据生产的过程，以保证整个质量是合格的。

除此之外更重要的、也是我们 AI 数据服务的前置底线——数据安全。

第一，不滥用数据，数据交付后清毁数据不留底，绝不二次使用；

第二，不侵犯隐私，与所有数据采集的用户都签订数据授权协议，确保 AI 企业用于训练的数据合法合规；

第三，建立了相关的数据保障机制，如从防火墙的设置、内部信息系统的管护、乃至标准化的流程作业体系等。

这些都是云测数据正在全力在做的事情。

今天有机会来到极客公园，跟大家一起分享人工智能背后数据的生产制造过程，希望给大家分享的内容能让大家意识到除了在 AI 应用之外，人工智能的背后还有这么多跟数据生产、制造相关的有意思的事情。

我们把 AI 应用看作一个个学生，那些老师就是他们背后的算法工程师，而云测数据做的就是生产好的教材，让这些老师更好的因材施教，变成更好的 AI 应用。

谢谢大家！

图片来源：VPHOTO

责任编辑：卧虫

图片来源：VPHOTO

最新文章