商汤研究院院长王晓刚:商汤算法服务手机超过4亿台,AI与硬件深度结合引领体验升级

摘要

回顾2018,人工智能正在成为手机发展的“新引擎”。2018年商汤在手机业务硕果累累,“3D人脸识别、人脸3D重建及微整形、人脸解锁、AI智慧双摄、超分辨率、3D人体实时追踪、3D虚化、AI人像光效、Animoji、美体、SLAM、AR相机、AR导航、AR测量”等诸多技术在OPPO、vivo、小米、华为、魅族、OnePlus等手机产品中纷纷落地,广受用户欢迎。商汤手机的AI功能覆盖了全部的头部客户和80%的长尾客户。

回顾 2018,人工智能正在成为手机发展的「新引擎」。2018 年商汤在手机业务硕果累累,「3D 人脸识别、人脸 3D 重建及微整形、人脸解锁、AI 智慧双摄、超分辨率、3D 人体实时追踪、3D 虚化、AI 人像光效、Animoji、美体、SLAM、AR 相机、AR 导航、AR 测量」等诸多技术在 OPPO、vivo、小米、华为、魅族、OnePlus 等手机产品中纷纷落地,广受用户欢迎。商汤手机的 AI 功能覆盖了全部的头部客户和 80% 的长尾客户。

那么,商汤为何能够获得手机厂商的高度认可? 这两年手机硬件与 AI 软件的角色又有哪些转变? 商汤从创立之初就选择并坚持产学研一体化模式,根本原因是什么? 如何培养和管理一支富有创造力的人工智能团队?2019 年的 AI 手机行业又有哪些趋势? 为解答这些疑问,近日,商汤君与商汤科技联合创始人、研究院院长王晓刚教授进行了一次深度对话。

王晓刚教授是商汤科技联合创始人、研究院院长、杰出科学家,同时亦为香港中文大学电子工程系副教授。王晓刚教授毕业于中国科技大学少年班,于 2001 年获得电子工程与信息科学学士学位;2004 年获得香港中文大学信息工程硕士学位;2009 年获得麻省理工学院人工智能实验室获得计算机博士学位。

王晓刚教授的研究领域包括计算机视觉和机器学习,他曾在顶级的国际期刊和会议发表超过 200 篇论文,其论文在 GoogleScholar 上的引用次数超过 17000 次。他还是国际顶级计算机视觉会议 CVPR 2017, ICCV 2011,ICCV 2015, ICCV 2017, ECCV 2014, ECCV2016, ACCV 2014 和 ACCV 2015 的领域主席。

总结 2018:优异成绩单源自积累、体系和格局

Q:2018 年商汤 AI 技术在手机上有很多应用,包括 AI 双摄虚化、人脸 3D 重建、超分辨率、3D 人体实时追踪等等,并与 OPPO、vivo、小米、华为等手机厂商都有合作,您觉得商汤在手机业务获得优异成绩的原因有哪些?

A(王晓刚):首先非常感谢我们的客户和产业链的合作伙伴一直以来对商汤的信任与支持。我觉得商汤能够获得客户认可有几个因素,第一是积累,商汤是比较早地把 AI 带到手机,我们有比较深厚的积累。比如 2014 年商汤就在学术界首次提出了基于深度学习的超分辨率技术,并且拥有最早一批相关专利。经过四年打磨,2018 年终于在 vivo X23 手机上落地。比如体感游戏中的人体关键点技术我们也已经有了数年的积累。再如 AR 的 SLAM,我们和浙江大学-商汤三维视觉联合实验室有十几年的积累。深厚的积累是源源不断创新的保障。

应用于 vivo X23 幻彩版的 SensePhoto 超分辨率技术

其次是体系。比如 SLAM,我们从视觉 SLAM 到基于双摄的 SLAM 和基于多传感器融合的 SLAM,是一整套的 SLAM 技术体系。在 SLAM 技术基础上,我们还有导航、重建、AR 测量、AR 相机等多种应用。完整的技术和产品体系可以更好地满足客户需求,为客户创造价值。未来,这些手机上打磨的技术还可以应用于互联网和 IOT,构造一个更大的 AI 生态。

另外,这归功于商汤的格局,我们看问题着眼未来。比如商汤 SenseAR 平台是对标谷歌的 ARCore,苹果的 ARKit,还要体现出差异化。很多人觉得商汤难以和国际巨头抗衡,但商汤的目标是要在手机上做长远的规划,这就要从最基础夯实我们的技术。如今商汤 SenseAR 平台支撑了非常多的应用,将来还会更多。

OPPO 发布与商汤合力打造的 OPPO AR 开发者平台

Q:关于人体识别,商汤其实在安防领域也有应用,那么在安防领域的应用和手机领域运用有什么不同吗?

A:手机上对准确性和实时性的要求会更高,因为它直接关系到用户的体验。比如我们在手机上做的 3D 体感游戏是通过肢体动作控制游戏里面的人物,这些控制必须非常准确。

SensePosture3D 人体骨架检测算法正在为 OPPO R17 Pro 体感游戏带来支持,图片源自 ColorOS 官方社区

安防领域主要是识别,但手机除了识别,还有重构、合成,比如美体中的应用,如果对人体的关键点定位和人体分割出现微小的偏差,就会出现背景和人物的扭曲。从这个意义上讲,手机对技术的要求更苛刻、更严格。

AI 角色转变,从弥补硬件不足到硬件专门为 AI 设计

Q:近两年手机 AI 软件已经逐渐影响硬件研发方向,您怎么看这种转变?

A:手机硬件和 AI 的关系有三个阶段:第一个阶段是 AI 弥补硬件的不足;第二个阶段是硬件推动 AI 的创新;第三个阶段是部分硬件专门为 AI 设计,AI 和硬件联合创新。

一开始 AI 是弥补硬件的不足,比如由于物理条件的限制手机拍不出单反的效果,我们可以尝试通过 AI 的方式实现某些功能。再如手机用两个摄像头估计深度,然后做人像和人体分割。2016 年商汤第一个在 OPPOR9s 上通过 AI 算法实现单个摄像头的人像分割,从而进行背景虚化,弥补了硬件的不足,降低了成本。

随之硬件又推动了 AI 的创新,比如手机上随着深度摄像头的出现,可以做 3D 人脸解锁、3D 人脸重建、AR 测量和一系列的体感游戏。另外,NPU 最初的出现把原来手机芯片对神经网络的处理能力提升了很多倍,为 AI 提供了更多的算力。

SenseMatrix AR 测量帮助 OPPO R17 Pro 打造 AR 尺子功能

如今,一些硬件是专门为 AI 设计的,AI 和硬件联合创新。新一代的 3D 摄像头和 NPU(嵌入式神经网络处理器) 这些硬件的创新就是围绕 AI,需要和 AI 的算法融合在一起为消费者带来价值,这些变化大大促进了 AI 技术提供商和产业链合作伙伴之间更紧密的配合,并提升服务客户的能力。

去年 12 月,高通发布了全球首款商用 5G 移动平台——骁龙 855,拥有强大的 AI 能力,其中就包括商汤的 SenseID 3D ToF 人脸认证、SensePhoto AI 超分辨率、SensePhoto AI 夜景和 SensePhoto AI 双摄虚化等多项创新技术。

同样于去年 12 月发布的联发科新一代移动平台 Helio P90 拥有旗舰级 AI 算力,也搭载了商汤 SenseColor 人像留色技术,可以实时识别、分割出所拍摄人物轮廓与外在环境边界。

作为人工智能的重要推动者,未来商汤科技的创新将更进一步,与合作伙伴一起推动整个行业的发展,更好的服务广大用户。

切忌涸泽而渔,产学研一体化是创新的源泉

Q:商汤一直坚持产学研一体化的模式,它的优势具体体现在哪些方面?

A:产学研一体化是商汤创新的源泉。一项技术应用到手机上可能是 3 到 6 个月,但这项技术的积累可能已经花了几年时间。

现在很多公司邀请大学的 AI 教授加入工业界,一段时间后他们会把之前积累的学术成果转化为落地的技术,然后工业界马上会问下一个新技术是什么? 工业界对 AI 的需求是非常迫切的。一些教授进入工业界后就失去了继续创造的源泉,他们需要持续培养学生,才能够有一个土壤提供源源不断的创新。如果切断了这样的源泉就会产生涸泽而渔的结果。产学研一体化需要不断汲取各种各样的新技术来刺激它,推进它,仅通过商汤一家公司是很难完成的,要建立学术界和工业界共赢的生态。

商汤科技在世界人工智能大会上联合 15 所高校发起「全球高校人工智能学术联盟」

Q:产对研有没有反过来的促进?

A:有的,我们从实验室出来的东西大多是一个雏形,真正应用到手机里面还要经过深度的打磨,经过手机厂商打磨之后会变得非常强大,它会再次返回到学术端。例如商汤 SenseAR 平台就是从实验室出来并经历了深度打磨的过程,它不但会开放给开发者,其中一些模块也会开放给我们的学术联盟。我们的学术联盟相当于站在 SenseAR 这个巨人的肩膀上再往前走。等他们有一些成果的时候会贡献到 SenseAR 的一些模块中,使得这个平台得以持续提升。

另外,产也会对研提供一些新的研究课题,比如 3D 技术的研发,手机上 3D 传感器的出现必然带来 3D 数据的极大丰富,原来互联网图像和视频数据以 2D 为主,有了海量的 3D 数据,就可以做更多新的研究课题。

Q:如果未来 3D 数据大量涌现可能又会衍生出新的、不一样的生态。

A:对,这会刺激更多的研究创新,创新不能是凭空的,一定要有土壤,产业界可以给他们提供这样的土壤。

一个团队一定要经历「涅磐」,才能够成长

Q:您在培养团队方面有没有一些心得和体会可以分享一下?

A:从学术研究到产业落地有一个比较大的距离,商汤的一些研究员是从大学实验室出来的。我们团队一定要经过一个「凤凰涅磐」的过程才能走向成熟。很多项目我们是觉得已经不行了,快绝望了,最后一口气坚持下来,取得了成功。

我们手机上一项技术的落地像是「十月怀胎」,到最后关头是非常痛苦的过程。落地之后这个团队就成熟了,下一次他们就知道怎么经历这样的过程,就可以承担更重大的责任。

另外,一项技术开始的时候可能有比较强的新鲜感,之后会遇到很多细节的问题,面对客户提出的各种各样需求,而这时候团队的新鲜感已经消失了。在这种情况下如何继续保持团队战斗力至关重要。

2018 年初我们给手机团队提的要求第一是敬畏客户,第二是追求极致。我们需要先认真倾听客户的需求,再在产品上追求极致体验,每一个边边角角,每一个瑕疵都要解决。现在用了商汤算法的手机超过 4 亿台,商汤的产品和技术最终要走进千家万户,要给大众一个最极致的体验。

商汤成长很快,原来商汤好比是一辆自行车,如果没有刹车 (质量控制) 顶多把自己摔得鼻青脸肿;现在是跑车,如果没有刹车破坏力会非常强。当商汤给市场提供越多价值的时候,我们的责任就越大,这就是我们为什么要敬畏客户,追求极致的体验。

展望 2019:从 2D 到 3D,5G 带来更多视频处理需求

Q:您怎么看 2019 年 AI 手机发展趋势?

A:2019 年有几个趋势,NPU 的出现会充分释放 AI 算力的优势,发挥 AI 的潜力;随着 5G 的落地,云和端会更紧密的结合;我们正在快速迈向 3D 的新时代,拥抱海量 3D 数据给生活带来的巨大变化;随着 AI 和 AR 平台能力的开放,将进一步赋能开发者,推动整个生态的进步;另外多传感器融合、手机与 IoT 的结合、智能语音助手都会有更多云+端的应用。

Q:AI 和 5G 有哪些融合吗?5G 对手机行业会有哪些影响?

A:5G 可以充分运用云上的算力,它有更少的延时和更大的带宽。我们目前看到手机上的 AI 功能是对图像处理比较多,有了 5G 之后会有更多对视频的处理和对 3D 数据的处理。

Q:最近艾瑞咨询联合商汤发布了《2018 年中国人工智能手机行业研究报告》,艾瑞通过调研发现,中国手机用户下次更换手机时 95.9% 都更愿意选择 AI 手机。您觉得 AI 手机对消费者的吸引力为何会这么大?

A :很欣喜看到消费者对 AI 价值的认可,这是手机厂商、硬件厂商和 AI 技术提供商共同努力的结果。AI 手机为用户带来了更好的体验和诸多新的应用,例如超分辨率、人脸解锁和 3D 应用,这些 AI 软件的创新给人们带来很多的惊喜。其次 AI 技术提供商和手机厂商的合作也在逐渐深入,能够使 AI 更好地服务手机客户,进而使整个用户的体验得到提升,这是最根本的。另外一个就是创新的速度,AI 手机迭代非常快。

用 AI 为用户创造价值、为开发者赋能是商汤的使命,相信在我们客户以及合作伙伴的共同努力下,2019 年的 AI 手机一定会有更加丰富多彩的体验。


最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。