揭秘格灵深瞳:计算机如何看懂我们的世界?

揭秘格灵深瞳:计算机如何看懂我们的世界?

发现雪白桌面上一张同样雪白的 A4 纸?提前一秒预知你的动作是否存在威胁?出现危险情况时,对着镜头做「SOS」的手势警察就会来帮助你?

这些太像科幻片?格灵深瞳都做得到。

比尔盖茨听罢产品介绍直呼「This is very cool」,纽约警察局(NYPD)前来寻找解决方案,英伟达将其列为与小米同等重要的客户……

一家 2013 年创立的国内公司,凭什么如此「高调」?

格灵深瞳正在制造能看懂现实的计算机之眼,迈出的第一步是保护我们的安全。

从安防监控开始

2012 年夏天的图书馆,我将书包存于寄包柜,借书完毕发现钱包不翼而飞。报警、调监控录像、确认有人从柜子中拿走我的书包取出钱包又大摇大摆的放回,可直到毕业钱包依旧杳无音信。

听说这是个惯犯,校方多次查找都没能捉到。如果摄像头能够识别这个人、识别、自动报警,也许一切就会不一样。

安防监控一直被认为替代了大量人工,延长人眼观察距离,又能在恶劣环境下工作。但实际上它们还只是用光纤、同轴电缆或微波在闭合环路内传输视频信号的系统,虽能实时播放记录图像,但面对威胁时仍需要触发现场的报警系统才能引起警觉。

如果没有人观看,这些实时传输的图像就毫无意义。即便是为了寻找证据,事后查找也需要回溯录像,在模糊的视频中寻找线索,是一项极其繁重的工作。

能不能让这些摄像头就像我们的眼睛一样看懂这个世界,自己发现危险和异常?

人们用两只眼睛获得原始的三维数据,再由大脑处理信息做出适当的反应。而在过去的十几年中研究者们一直相信光学镜头+计算机算法就能看懂我们的世界,但光学镜头丢失了三维世界的重要信息——深度。

格灵深瞳使用的设备

格灵深瞳的设备看上去和普通的安防监控设备不太一样。与一般球状单摄像头相比并列采用了三枚摄像头:左侧是与普通安防摄像头一样的 RGB 摄像头,另两个是激光发射器和接收器,外形与微软 Kinect 非常相似。

通过它真的能看懂我们的世界么?

格灵深瞳CTO赵勇还在谷歌时就相信想要让计算机要看懂图像,必须通过三维这条路。通过激光发射器的发射与接收,以结构光源实现深度的方式让摄像头对三维的空间变化有了感知能力。但这只是第一步,通过人眼接收光线仅仅是提供了信息。真正要「看懂」图像,还需要大脑将光信号转换成神经信号。

一整套将三维世界原始数据转换为最原始、电脑能看懂的数据的系统,才是格灵深瞳的核心所在。

让机器看懂世界

「格灵深瞳可以做到两件事:第一个是以人为单位,十几、二十几个人在屋子里互相交错,比如地铁,我们会对行人的轨迹和速度进行非常精确的跟踪。另一个是在中远距离对人的肢体行为,近距离对人手的行为都可以识别。」格灵深瞳 CEO 何搏飞告诉极客公园。

格灵深瞳 CEO 何搏飞为极客公园解释设备原理

明明光沿直线传播,格灵深瞳的设备如何做到人与人之间的遮蔽不会影响系统判断?因为人是连续的——既不可能凭空出现,也不可能凭空消失,这也是格灵深瞳算法的前提。遮蔽情况出现时,系统会一直跟踪到「失踪」的人再次出现。

那么格灵深瞳如何提前预知犯罪?将所有的不正常(推搡、撞击)行为都模型化后再匹配?不用这么复杂。以暴力行为为例,空间中的人动作的速度、幅度以及强度经过衡量,暴力动作与正常的动作相比强度非常不同。通过肢体的动作幅度对异常举动进行分析和判断,这个人的动作幅度超出安全值,格灵深瞳可以实现再行为发生前 0.5 秒或 1 秒报警。

目前银行、特别是 ATM 自助银行是格灵深瞳最主要的应用场景。具有学习能力的系统放在 ATM 机环境下,在一个月时间左右系统可以学习到大部分人都是一样的进门、排队、走到机器面前、插卡、按键盘、等一会儿取钱离开,并认为这样的流程是正常行为。如果晚上 10 点有人进入一个北京城乡结合部的营业厅,没有取钱而是蹲在墙角,系统就会认为这是异常情况进行上报。或者有人在插卡口处做出大量动作,可能在安装读卡器、或者薄膜键盘,这时系统也会提示异常。

虽然产品叫做无人安防监控系统,格灵深瞳无意以此代替所有的监控人力。人类的世界太复杂,机器会帮助人类从重复性的工作中解放出来,但最后的决定还是需要人来做出。格灵深瞳系统的存在是为安保人员提供极大的效率的提升,告诉他们「嘿,这里有点不太对劲,看看是不是有什么问题?」而不是取代他们。

三维的数据会不会大很多?传统计算机真的能处理这些数据吗?

没错三维的数据总量要比二维数据大得多,因此格灵深瞳选择全部数据在本地进行结构化处理,再上传云端。对带宽的占用和现阶段二维的安防监控没有质的区别,至于现有计算机能不能处理,那就要看 GPU 了——这也是英伟达看重格灵深瞳的原因。

一家计算机视觉+人工智能公司

2013 年 4 月,格灵深瞳成立三个月就拿到真格基金和联创策源的联合天使投资,今年 6 月,格灵深瞳又拿到红杉资本 A 轮高达数千万美元的投资。

乘上楼电梯、ATM 机取现、超市购物,监控我们摄像头无所不在。你猜北京 T3 航站楼正在盯着我们的「眼睛」有没有一万个?答案是五倍——五万个。

在 CEO 何搏飞看来,安防监控拥有比智能手机更庞大的市场,银行仅仅是其中的一部分。通过这些项目梳理全流程的格灵深瞳,平行进入其他行业也是顺其自然的事。

但让一个团队、一家公司改变全行业是不可能的事,格灵深瞳常说自己是一家「一家计算机视觉+人工智能公司」。他们更希望在安防监控这个「验证点」成功之后,能以计算机视觉为基础提供一个平台,让更多行业的人接入其中,体验到这项技术所能带来的、前所未有的力量。

比如运用到医疗领域,现阶段心脏手术需要人为让心脏暂停跳动转向体外循环,计算机视觉则可以让手术刀与心脏跳动同步运动,实现相对静止的心脏手术。这种应用正处在试验阶段,也许不远的将来每个人都可以从中获益。

或者在空巢老人家中感知老人的意外情况及时提醒家人、课堂上通过学生的表情感知学习效果改善教学计划……拥有感知能力的计算机视觉在这个世界里,可以有更多想像。

在格灵深瞳会议室天花板上有一个大大的X,代表着未知

格灵深瞳希望自己的未来是个人工智能公司,「在那个阶段我希望能把计算机的认知能力,感知能力结合起来,去做一些非常有意思的事情」。

如果你觉得格灵深瞳被「神化」,那说明 CV 领域需要更多关注、更多参与。与短平快的 to C 项目相比,人工智能领域充满太多变数,因此注定更加荆棘密布也孕育着更多可能。

极客是意识到趋势,然后埋头去做的人——何搏飞如是解读「极客」精神。格灵深瞳也在根据现实不断调整自己的步伐和方向,每一次的拜访,都有新变化。

当互联网和云成为基础,机器学习、大数据成为常态,你猜下一个风口,是不是人工智能?


以及:「格灵深瞳」已入围极客公园 2014 中国互联网创新产品 Top50,喜爱的朋友可以为它 投上一票

人工智能格灵深瞳计算机视觉
关注极客公园公众号
反馈