如何利用 AI 技术打造下一代产品?

摘要

计算机视觉与语音技术的落地实践。

以下内容根据极客公园 2016 奇点·创新者峰会 AI 论坛上的演讲整理而成。本次论坛由极客公园、嘉实科技、上海自贸区金桥管理局联合举办,更多相关信息请关注:singularity.geekpark.net。


在人工智能领域,计算机视觉和语音技术的进步带动了一大批新兴产品和公司的发展。作为 AI 技术的核心基础,我们应该如何利用计算机视觉和语音技术打造下一代 AI 产品?在极客公园 2016 奇点·创新者峰会 AI 论坛上,腾讯优图实验室总监&专家研究院黄飞跃、Sensetime CEO 徐立,以及思必驰 CEO 高始兴为我们分享了他们的思考。

腾讯优图实验室总监黄飞跃:如何结合互联网业务打造人工智能平台 

我们这个团队人工智能更侧重是从感知层面来做,包括怎么样理解相关的一些多媒体的数据,我们会做人脸的检测,到五官配准,像图像识别,我们会研发像 OCR 的识别,还有图像的分类识别,分类识别里面的内容和场景,还有识别图像是否是不是涉及到一些色情图片。我们还会研发一些语音识别,在音乐层面,我们会做音乐智能分类,音乐的检索还有哼唱的数据。 

黄飞跃-腾讯优图实验室 总监 & 专家研究员7-2.jpg

我们这个团队是属于腾讯社交网络事业群,我们这个事业群主要有一些业务和产品,包括 QQ、QQ 空间、QQ 音乐,还有广点通,还有像微云等等,大量社交数据和社交业务,所以我们有非常好的平台优势,我们有大量的平台数据,比如说 QQ 音乐上面我们有数千万 QQ 音乐存量歌曲,还有日活跃用户,在 QQ 用户上面,我们有数千亿存量照片,每个月有数亿的上传用户,用户上传照片超过 6 亿,这些都是给我们人工智能研发带来非常好的基础。

所以,在这样一个平台上面,有大量的平台数据,我们研发拓展了包括刚才介绍的,还有像图像处理识别,音频分析识别,大数据处理等等。

这样一些技术,要想做到完备,要在不同的实际场景中都能应用,因为不同场景需要技术的能力是不太一样的。这是一个完备的技术。然后我们有一个业界最大的人脸识别的计算平台,因为依托于 QQ 空间和腾讯云,我们计算平台日处理图片数过亿,日识别脸超过 2 亿,我们当前累计超过 1 千亿图片的处理。所有的每天用户上传数据我们都能够实时处理,实时的做识别。

如果要想做相关的技术应用,还需要大量的人脸识别库,这个人脸识别库我们积累了数百万非常均衡,每个人在不同场景,不同年龄段,不同时间跨度下不同的数据,这个给我们人脸识别提供了非常好的基础。

所以说,我们人脸识别是通过这样的数据到技术到应用,这样形成一个完好的闭环,通过应用,我们可以得到算法更好的检验,来检验我们人脸识别是否真实有效。我们算法分析以后,也可以得到用户实时的反馈。

下面,给大家介绍一下我们智能鉴黄的技术,这个技术尤其是用户产生不管是图像数据大量增长爆发,最近一两年网络直播的普及,对于鉴黄需求非常大。传统的鉴黄方法,基本上都需要人工来做,人工做的话,一种说,我人工抽样审核,一种人工可能盯着发现有一些异常活跃的群,或者一些活跃用户,然后我们去看这些数据有没有问题。

还有人工举报得来的数据。通过这些数据,传统的我们技术手段最多是说,根据这些数据,我们去找一些相似的点,比如说一张图片流传出来,它能够找到相似的图片,即使用了这样一个相似图片比对的方法来做,它其实还是需要大量的人工,实际上还属于一种被动识别,它是事后的监管,因为只有这张图片被人标记为黄图,才能被找到。

所以,在去年的时候,优图这边就发现,我们可以用深度学习做一个更好的主动识别的一个引擎。我们同样基于一个深度学习的图像分类的方法。我们训练了大量的色情图片,传统的图片,还有性感的图片,有多种数据,我们经过大量训练以后,就可以得到一个色情图片识别的引擎,这样一个引擎的好处,它完全一个主动识别。

系统库里并没有这张数据图片,基于我们系统识别,就可以知道这张图片是否是色情图片。我们这个业务只用了三个月,包括搜集数据,包括训练我的模型,然后验证,然后迭代我们的算法。

这样一个鉴黄能力,在我看来有一个非常大的应用场景,所以我们也把它作为一个服务放在腾讯云上对外提供服务,对外开放。它现在已经在内部支持了包括微信、QQ、QQ 空间大量的业务,每天处理图片超过 10 亿。

对外的话,我们当前页已经接入有几十家的客户,把这个服务提供了以后,不管内部还是外部,他们反馈来说人工审核的效率大大提升,由于有了这样一个主动的识别能力以后。同时,我们这样一个平台也可以支持包括图片,还有视频一个鉴黄的能力。另外,鉴黄的精度是很高的,比传统的方法要高很多。

Sensetime CEO 徐立:看得见的人工智能

我们是一家做机器视觉的公司,因为今天主题是关于人工智能。对于人工智能这个词,我个人有一些反感,大家不停地在炫耀这个词,其实人工智能的定义,或者从 5、6 年这个会议上确定人工智能,通过人的工程使第三方主体拥有类人的思维和类人的意识,所以它的目的是仿人类。但是和我们之后做的事情不完全一样,或者有比较大的差别。

徐立-SenseTime CEO5.jpg

从我的个人理解,我要用第三方主体并不是通过计算机,可以通过生物科学,我增强一只猴子,说我个人更像一些。现在我们大部分计算机工程,或者工程学所做的事情,其实叫机器智能,它的目的并不是仿人,是在做一些人类所指定的存储任务情况下超越人,只有在超越人的标准上其实才有更广泛的应用。

我现在做的这些事情,人类高逼格也好,这样一些活动机器都能够记下来,现在机器智能的演进朝着一种快速发展的状态下带来不一样的场景。

第二部分是感知,从 2D 变成 3D,感知深度,通过各种三角画,通过结构光,这个也是视觉上很常见的问题,同时还可以感知细微的运动,2D、3D,这个也是我们比较领先的技术。

刚才讲到拍照的事情,接下来再给大家看一张照片。大家觉得这张照片是用什么拍摄的?单反、卡片机还是手机?说用手机拍摄的真的是好眼光。我们觉得现在手机、相机的演进已经代替了卡片机,大家现在还是有单反的欲望,因为单反有很大的变焦。但是我们可以通过感知深度生成这样一张照片。

人是通过两只眼睛感知深度的,深度感知有两种模式,一种是用两只眼睛感知深度。另外鸟类两只眼睛长在一边的,它是从运动感知,只有在动的时候,它的视觉才是立体的。不管是说通过运动也好,通过天生的双目,或者有更多眼睛这种情况来说,他得到的是整个场景当中一个背后的深度。基于这样一些深度,可以真正形成刚才所说的大光圈的渲染,市面上也有一些手机装备了我们的技术。人脸我们在这方面做得比较前沿的。因为我们定义的工业界一个应用时间点,所有的技术都有一个改变,技术不在于你领先后面几家多少,真正的技术爆发点,我们理解它过了一个实用的线,那条线我们现在看来,人眼睛识别的准确率。

现在网上也经常说,特斯拉自动驾驶出车祸了,任何算法都不会 100% 准确,它肯定会有一些有问题的情况,我们判断它能不能大规模使用的,唯一一个准则,如果这件事情换人上,是不是能做得更好,假设特斯拉无人车它的事故率远远低于人的开车事故率,这件是可以接受的。但是目前只要能上机器,大家对它的期望,一定要 100% 准确。

人脸技术刚才应用也讲了很多的,我们确实有非常大的应用,人工智能的应用,或者机器智能的应用,我认为分为两波,有点像早年的蒸汽机发明的时候。第一波在一些非常强劳动力的行业,真正去代替劳动力,它会形成一个广泛的应用。现在在一些行业。

比如说我们做金融的身份认证,我们去柜面上交上身份证,别人会把身份证和人进行一个比对,你过机场闸机口,如果人工智能第一个应用爆发是在说,如果这些智能东西加到它现有人力方面,它能多做 30% 或者 50% 的业务,这个业务才可以解决人口红利下降的这么一个问题。甚至在商业上,相当于多了 30%—50% 的毛利。所以我认为这是人工智能第一个,而且现在来看是最容易通向现实的商业点。

第二,我们所谓的创造出一些原来没有的行业和新兴行业。第一个行业的发展到头的时候,可能会形成劳动力过剩,会把一部分劳动力解放出来做第二个行业,那个行业需要我们在座的企业家教育市场,对新兴的应用和技术有更好的认知。

有一个很重要的行业叫安防行业,一旦发生案件,这种在大的城市,一线城市是能够做到纠一大堆人过来看。像这种小的县城里面,如果发生一个事情,有这么多监控视频全部看完人工成本非常高,我们的技术就可以帮助他们解决这些问题。刚才说到一些绑架案,用我们技术把视频导进去,发现第一个找到的通缉犯就是犯人。

现在还有一些线上视频的梳理,我们有场景识别、人脸识别和物体识别,我们把整个视频进行结构化的分类,使大家便于检索和便于识别。

最后,给大家讲一讲,我们现在商汤来看,有哪些应用我们觉得已经达到了人眼睛识别准确率的这么一个点。同时,我们发现它有比较大的商业价值。

第一块是人脸,人脸关注度很高,它其实有一个比较大的突破。像我们小米和华为做的智能相册,完全基于现在图像识别和分类。当然背后所有的算法都是基于统一的深度学习的框架。行业来看,金融、商业地产、商超、安防监控。

思必驰 CEO 高始兴:语音交互所有

早期语音更多是在传统的非常窄的市场去应用,包括呼叫中心。后来 Siri 发布,引爆整个语音在互联网的市场,吸引了很多眼球,吸引了很多资本,吸引巨头发展,推动整个市场,推动技术的进步。再到智能硬件物联网行业,语音成为刚性痛点的需求,在各个行业,各个垂直产品进行落地,整个行业确实爆发力很强。技术早期还是单点的技术,后来技术的提升,包括语音识别、合成,智能识别等等,包括现在从感知走向认知,对话技术。

高始兴-思必驰 CEO4.jpg

以前这个题目有可能有点大,现在人工智能加速渗透到商业、生活的方方面面,语音现在在各个终端连接了各种各样的服务。早期的时候,还是一个简单的模拟,简单的算法,虽然期望特别大,但是落地特别少。真正再一次掀起一个小浪潮是 80 年代,在欧洲、日本商业的企业,包括声音网络,遗传算法。但是真正大的技术变革,真正在行业上掀起爆发式应用,还是在近 10 多年互联网时代,摩尔定律处理能力,大数据、云计算,让能力循环成为可能。现在确实在各个产业上,我们看到更多的应用场景。

AI 从互联网到移动互联网到物联网,现在到智联网,现在它的渗透率,推动率越来越大。早期在互联网、移动互联网,更多还是产品驱动,是一个商业模式驱动。现在在智能硬件物联网,泛人工智能行业,我们看到 AI,人工智能驱动,让各种新型商业,新型商业产品成为一种可能。包括现在人工智能创业公司价值体现也越来越多。

从工业革命、信息革命,现在人工智能的革命,进入人工智能时代确实对众多的创业公司,特别是技术驱动的,有技术积累的创业公司带来非常大的机会。我们现在看移动互联网,不说互联网,移动互联网更多还是抢夺存量市场,一片红海甚至血海,现在这个市场行业不是 A 的就是 T 的,或者是 B 的,当然 B 最近口碑不是太好,但是他们确实在人工智能布局还挺早,挺大。现在在整个巨头占据足够的市场,影响力的时候,我相信在若干个场景能成就很多独角兽,包括技术公司,包括结合行业的一些公司。

现在各个模态人工技术发展特别快,刚才讲的人工识别,提感识别,包括像我们语音识别等等这些,VR、AR 进展特别快。我觉得应该在很多场景下,我们在手机端,我们基本上特别是服务场景是打通的,我们通过触摸交互订票、订餐、购物等等这些行为,如果说我们在智能硬件物联网几个场景里面,比如说在开车的时候,我们在家里面对音响和机器人的时候,我们去订张票,语音可能是唯一的入口。

如果从语音上,实现人对机器的控制,我们喊一嗓子,把空调调高一点,控制电视,调整音量,简单的查询,搜一些歌,未来场景力量,一个生态一定让用户能够 Enjoy 更多的服务,一定需要对话交互,像手机端触摸交互一样,能获取更多的服务。

我们思必驰基于自然语言理解和处理,再一个是我们整合了我们对话逻辑,一软一硬两个产品,我们提供给三个垂直行业,车载、家居、机器人,让每个设备成为智能助理,帮助用户完成任务。

语音交互一切,语音改变更多,它除了连接一切,交互一切,未来会在产品创新,行业的一些变化,甚至变革上起到很大的推动作用。

现在移动互联网很多的行业生态,商业模式,在智能硬件物联网不一定完全能迁移,会发生一定的变化,甚至是颠覆。比如说搜索,现在 PC 互联网,移动互联网,我们端是手机,在智能硬件物联网是各个端,不单是端,交互界面都发生变化。

现在我们看到的智能硬件交互,还是很难完成闭环,未来在智能音响、电视,机器人等等上面,加上身份识别或者其他的生物识别,把你的身份能够通过身份密码完成支付,形成一个交易的闭环,这样整个大的生态才能起来。包括一些行业的融合和创新。

比如说未来我们在家里,我们通过电视,通过音响,我们在车里,通过车载智能终端学习英语,在家里可以做一些远程医疗等等,包括还有一些创新点子,包括前段时间有人提出来,监测儿童呼声,做一些相应的看护。

还有整个市场出现几百上千的语音助手,包括有一些获得投资,基本上都销声匿迹,在几年前整个语音在通用环境下简单能做好,这么几年从感知智能走向认知智能,通过对话流可以打通一个一个信息通道,未来手机可以看成一个端,类似于像智能音响一样,智能电视一样,因此我个人觉得,未来在智能手机上,成为新型语音助手。

最新文章

极客公园

用极客视角,追踪你最不可错过的科技圈。

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

顶楼

关注前沿科技,发表最具科技的商业洞见。