如何利用 AI 技术打造下一代产品？

以下内容根据极客公园 2016 奇点·创新者峰会 AI 论坛上的演讲整理而成。本次论坛由极客公园、嘉实科技、上海自贸区金桥管理局联合举办，更多相关信息请关注：singularity.geekpark.net。

在人工智能领域，计算机视觉和语音技术的进步带动了一大批新兴产品和公司的发展。作为 AI 技术的核心基础，我们应该如何利用计算机视觉和语音技术打造下一代 AI 产品？在极客公园 2016 奇点·创新者峰会 AI 论坛上，腾讯优图实验室总监&专家研究院黄飞跃、Sensetime CEO 徐立，以及思必驰 CEO 高始兴为我们分享了他们的思考。

腾讯优图实验室总监黄飞跃：如何结合互联网业务打造人工智能平台

我们这个团队人工智能更侧重是从感知层面来做，包括怎么样理解相关的一些多媒体的数据，我们会做人脸的检测，到五官配准，像图像识别，我们会研发像 OCR 的识别，还有图像的分类识别，分类识别里面的内容和场景，还有识别图像是否是不是涉及到一些色情图片。我们还会研发一些语音识别，在音乐层面，我们会做音乐智能分类，音乐的检索还有哼唱的数据。

黄飞跃-腾讯优图实验室总监 & 专家研究员7-2.jpg

我们这个团队是属于腾讯社交网络事业群，我们这个事业群主要有一些业务和产品，包括 QQ、QQ 空间、QQ 音乐，还有广点通，还有像微云等等，大量社交数据和社交业务，所以我们有非常好的平台优势，我们有大量的平台数据，比如说 QQ 音乐上面我们有数千万 QQ 音乐存量歌曲，还有日活跃用户，在 QQ 用户上面，我们有数千亿存量照片，每个月有数亿的上传用户，用户上传照片超过 6 亿，这些都是给我们人工智能研发带来非常好的基础。

所以，在这样一个平台上面，有大量的平台数据，我们研发拓展了包括刚才介绍的，还有像图像处理识别，音频分析识别，大数据处理等等。

这样一些技术，要想做到完备，要在不同的实际场景中都能应用，因为不同场景需要技术的能力是不太一样的。这是一个完备的技术。然后我们有一个业界最大的人脸识别的计算平台，因为依托于 QQ 空间和腾讯云，我们计算平台日处理图片数过亿，日识别脸超过 2 亿，我们当前累计超过 1 千亿图片的处理。所有的每天用户上传数据我们都能够实时处理，实时的做识别。

如果要想做相关的技术应用，还需要大量的人脸识别库，这个人脸识别库我们积累了数百万非常均衡，每个人在不同场景，不同年龄段，不同时间跨度下不同的数据，这个给我们人脸识别提供了非常好的基础。

所以说，我们人脸识别是通过这样的数据到技术到应用，这样形成一个完好的闭环，通过应用，我们可以得到算法更好的检验，来检验我们人脸识别是否真实有效。我们算法分析以后，也可以得到用户实时的反馈。

下面，给大家介绍一下我们智能鉴黄的技术，这个技术尤其是用户产生不管是图像数据大量增长爆发，最近一两年网络直播的普及，对于鉴黄需求非常大。传统的鉴黄方法，基本上都需要人工来做，人工做的话，一种说，我人工抽样审核，一种人工可能盯着发现有一些异常活跃的群，或者一些活跃用户，然后我们去看这些数据有没有问题。

还有人工举报得来的数据。通过这些数据，传统的我们技术手段最多是说，根据这些数据，我们去找一些相似的点，比如说一张图片流传出来，它能够找到相似的图片，即使用了这样一个相似图片比对的方法来做，它其实还是需要大量的人工，实际上还属于一种被动识别，它是事后的监管，因为只有这张图片被人标记为黄图，才能被找到。

所以，在去年的时候，优图这边就发现，我们可以用深度学习做一个更好的主动识别的一个引擎。我们同样基于一个深度学习的图像分类的方法。我们训练了大量的色情图片，传统的图片，还有性感的图片，有多种数据，我们经过大量训练以后，就可以得到一个色情图片识别的引擎，这样一个引擎的好处，它完全一个主动识别。

系统库里并没有这张数据图片，基于我们系统识别，就可以知道这张图片是否是色情图片。我们这个业务只用了三个月，包括搜集数据，包括训练我的模型，然后验证，然后迭代我们的算法。

这样一个鉴黄能力，在我看来有一个非常大的应用场景，所以我们也把它作为一个服务放在腾讯云上对外提供服务，对外开放。它现在已经在内部支持了包括微信、QQ、QQ 空间大量的业务，每天处理图片超过 10 亿。

对外的话，我们当前页已经接入有几十家的客户，把这个服务提供了以后，不管内部还是外部，他们反馈来说人工审核的效率大大提升，由于有了这样一个主动的识别能力以后。同时，我们这样一个平台也可以支持包括图片，还有视频一个鉴黄的能力。另外，鉴黄的精度是很高的，比传统的方法要高很多。

Sensetime CEO 徐立：看得见的人工智能

我们是一家做机器视觉的公司，因为今天主题是关于人工智能。对于人工智能这个词，我个人有一些反感，大家不停地在炫耀这个词，其实人工智能的定义，或者从 5、6 年这个会议上确定人工智能，通过人的工程使第三方主体拥有类人的思维和类人的意识，所以它的目的是仿人类。但是和我们之后做的事情不完全一样，或者有比较大的差别。

徐立-SenseTime CEO5.jpg

从我的个人理解，我要用第三方主体并不是通过计算机，可以通过生物科学，我增强一只猴子，说我个人更像一些。现在我们大部分计算机工程，或者工程学所做的事情，其实叫机器智能，它的目的并不是仿人，是在做一些人类所指定的存储任务情况下超越人，只有在超越人的标准上其实才有更广泛的应用。

我现在做的这些事情，人类高逼格也好，这样一些活动机器都能够记下来，现在机器智能的演进朝着一种快速发展的状态下带来不一样的场景。

第二部分是感知，从 2D 变成 3D，感知深度，通过各种三角画，通过结构光，这个也是视觉上很常见的问题，同时还可以感知细微的运动，2D、3D，这个也是我们比较领先的技术。

刚才讲到拍照的事情，接下来再给大家看一张照片。大家觉得这张照片是用什么拍摄的？单反、卡片机还是手机？说用手机拍摄的真的是好眼光。我们觉得现在手机、相机的演进已经代替了卡片机，大家现在还是有单反的欲望，因为单反有很大的变焦。但是我们可以通过感知深度生成这样一张照片。

人是通过两只眼睛感知深度的，深度感知有两种模式，一种是用两只眼睛感知深度。另外鸟类两只眼睛长在一边的，它是从运动感知，只有在动的时候，它的视觉才是立体的。不管是说通过运动也好，通过天生的双目，或者有更多眼睛这种情况来说，他得到的是整个场景当中一个背后的深度。基于这样一些深度，可以真正形成刚才所说的大光圈的渲染，市面上也有一些手机装备了我们的技术。人脸我们在这方面做得比较前沿的。因为我们定义的工业界一个应用时间点，所有的技术都有一个改变，技术不在于你领先后面几家多少，真正的技术爆发点，我们理解它过了一个实用的线，那条线我们现在看来，人眼睛识别的准确率。

现在网上也经常说，特斯拉自动驾驶出车祸了，任何算法都不会 100% 准确，它肯定会有一些有问题的情况，我们判断它能不能大规模使用的，唯一一个准则，如果这件事情换人上，是不是能做得更好，假设特斯拉无人车它的事故率远远低于人的开车事故率，这件是可以接受的。但是目前只要能上机器，大家对它的期望，一定要 100% 准确。

人脸技术刚才应用也讲了很多的，我们确实有非常大的应用，人工智能的应用，或者机器智能的应用，我认为分为两波，有点像早年的蒸汽机发明的时候。第一波在一些非常强劳动力的行业，真正去代替劳动力，它会形成一个广泛的应用。现在在一些行业。

比如说我们做金融的身份认证，我们去柜面上交上身份证，别人会把身份证和人进行一个比对，你过机场闸机口，如果人工智能第一个应用爆发是在说，如果这些智能东西加到它现有人力方面，它能多做 30% 或者 50% 的业务，这个业务才可以解决人口红利下降的这么一个问题。甚至在商业上，相当于多了 30%—50% 的毛利。所以我认为这是人工智能第一个，而且现在来看是最容易通向现实的商业点。

第二，我们所谓的创造出一些原来没有的行业和新兴行业。第一个行业的发展到头的时候，可能会形成劳动力过剩，会把一部分劳动力解放出来做第二个行业，那个行业需要我们在座的企业家教育市场，对新兴的应用和技术有更好的认知。

有一个很重要的行业叫安防行业，一旦发生案件，这种在大的城市，一线城市是能够做到纠一大堆人过来看。像这种小的县城里面，如果发生一个事情，有这么多监控视频全部看完人工成本非常高，我们的技术就可以帮助他们解决这些问题。刚才说到一些绑架案，用我们技术把视频导进去，发现第一个找到的通缉犯就是犯人。

现在还有一些线上视频的梳理，我们有场景识别、人脸识别和物体识别，我们把整个视频进行结构化的分类，使大家便于检索和便于识别。

最后，给大家讲一讲，我们现在商汤来看，有哪些应用我们觉得已经达到了人眼睛识别准确率的这么一个点。同时，我们发现它有比较大的商业价值。

第一块是人脸，人脸关注度很高，它其实有一个比较大的突破。像我们小米和华为做的智能相册，完全基于现在图像识别和分类。当然背后所有的算法都是基于统一的深度学习的框架。行业来看，金融、商业地产、商超、安防监控。

思必驰 CEO 高始兴：语音交互所有

早期语音更多是在传统的非常窄的市场去应用，包括呼叫中心。后来 Siri 发布，引爆整个语音在互联网的市场，吸引了很多眼球，吸引了很多资本，吸引巨头发展，推动整个市场，推动技术的进步。再到智能硬件物联网行业，语音成为刚性痛点的需求，在各个行业，各个垂直产品进行落地，整个行业确实爆发力很强。技术早期还是单点的技术，后来技术的提升，包括语音识别、合成，智能识别等等，包括现在从感知走向认知，对话技术。

高始兴-思必驰 CEO4.jpg

以前这个题目有可能有点大，现在人工智能加速渗透到商业、生活的方方面面，语音现在在各个终端连接了各种各样的服务。早期的时候，还是一个简单的模拟，简单的算法，虽然期望特别大，但是落地特别少。真正再一次掀起一个小浪潮是 80 年代，在欧洲、日本商业的企业，包括声音网络，遗传算法。但是真正大的技术变革，真正在行业上掀起爆发式应用，还是在近 10 多年互联网时代，摩尔定律处理能力，大数据、云计算，让能力循环成为可能。现在确实在各个产业上，我们看到更多的应用场景。

AI 从互联网到移动互联网到物联网，现在到智联网，现在它的渗透率，推动率越来越大。早期在互联网、移动互联网，更多还是产品驱动，是一个商业模式驱动。现在在智能硬件物联网，泛人工智能行业，我们看到 AI，人工智能驱动，让各种新型商业，新型商业产品成为一种可能。包括现在人工智能创业公司价值体现也越来越多。

从工业革命、信息革命，现在人工智能的革命，进入人工智能时代确实对众多的创业公司，特别是技术驱动的，有技术积累的创业公司带来非常大的机会。我们现在看移动互联网，不说互联网，移动互联网更多还是抢夺存量市场，一片红海甚至血海，现在这个市场行业不是 A 的就是 T 的，或者是 B 的，当然 B 最近口碑不是太好，但是他们确实在人工智能布局还挺早，挺大。现在在整个巨头占据足够的市场，影响力的时候，我相信在若干个场景能成就很多独角兽，包括技术公司，包括结合行业的一些公司。

现在各个模态人工技术发展特别快，刚才讲的人工识别，提感识别，包括像我们语音识别等等这些，VR、AR 进展特别快。我觉得应该在很多场景下，我们在手机端，我们基本上特别是服务场景是打通的，我们通过触摸交互订票、订餐、购物等等这些行为，如果说我们在智能硬件物联网几个场景里面，比如说在开车的时候，我们在家里面对音响和机器人的时候，我们去订张票，语音可能是唯一的入口。

如果从语音上，实现人对机器的控制，我们喊一嗓子，把空调调高一点，控制电视，调整音量，简单的查询，搜一些歌，未来场景力量，一个生态一定让用户能够 Enjoy 更多的服务，一定需要对话交互，像手机端触摸交互一样，能获取更多的服务。

我们思必驰基于自然语言理解和处理，再一个是我们整合了我们对话逻辑，一软一硬两个产品，我们提供给三个垂直行业，车载、家居、机器人，让每个设备成为智能助理，帮助用户完成任务。

语音交互一切，语音改变更多，它除了连接一切，交互一切，未来会在产品创新，行业的一些变化，甚至变革上起到很大的推动作用。

现在移动互联网很多的行业生态，商业模式，在智能硬件物联网不一定完全能迁移，会发生一定的变化，甚至是颠覆。比如说搜索，现在 PC 互联网，移动互联网，我们端是手机，在智能硬件物联网是各个端，不单是端，交互界面都发生变化。

现在我们看到的智能硬件交互，还是很难完成闭环，未来在智能音响、电视，机器人等等上面，加上身份识别或者其他的生物识别，把你的身份能够通过身份密码完成支付，形成一个交易的闭环，这样整个大的生态才能起来。包括一些行业的融合和创新。

比如说未来我们在家里，我们通过电视，通过音响，我们在车里，通过车载智能终端学习英语，在家里可以做一些远程医疗等等，包括还有一些创新点子，包括前段时间有人提出来，监测儿童呼声，做一些相应的看护。

还有整个市场出现几百上千的语音助手，包括有一些获得投资，基本上都销声匿迹，在几年前整个语音在通用环境下简单能做好，这么几年从感知智能走向认知智能，通过对话流可以打通一个一个信息通道，未来手机可以看成一个端，类似于像智能音响一样，智能电视一样，因此我个人觉得，未来在智能手机上，成为新型语音助手。

腾讯优图实验室总监黄飞跃：如何结合互联网业务打造人工智能平台

Sensetime CEO 徐立：看得见的人工智能

思必驰 CEO 高始兴：语音交互所有

最新文章