手势控制难用到底是因为什么?

摘要

这个锅应该「惯性思维」来背。

编者注:本文根据极客公开课「当我们聊 VR 时,我们在聊什么」中,uSens 凌感首席研究员毛文涛的演讲速记整理而来。焰火工坊创始人娄池对于手势识别的态度摇摆不定,而毛文涛就 VR 交互这一主题分享了自己的见解。


其实交互这件事情,到今天我也是迷茫。因为有人跟我说,加上手势识别是不是会特别酷?我立刻感觉特别酷。但后来有人说,你试用 15 分钟看看?我试过后,发现手反正挺疼的。

还有人说手柄好,我一瞬间就觉得手柄更好。直到今天我的立场都不坚定,我也不知道哪个更对——虽然消费者是可以培育的,但是我确认一点,我们公司没有培育消费者的能力。所以我们还是没有加手势识别这一块。

焰火工坊创始人 & CEO 娄池

VR/AR 设备为什么让我们能那么喜欢,又不停的追求?是因为我们人类这几十年,一直都在追寻一种自然的表达和一种智能的理解,就是越自然的表达方式我们越喜欢。对于电脑来说,它们要是越能理解我们的行为,当然就是越聪明,就是越好。

在 VR 和 AR 里,什么样是我们一种自然的表达?我们就希望计算机能识别到我们这样自然的表达。Oculus2013 年出来的时候,它很火,就因为它简单的理解了一个自然表达,就是头部的旋转。当我们头部旋转的时候,它知道我们想看到不同方位。所以正是因为理解了这个小小的点,所以它就一直很火。但是当我们进一步理解 VR 的时候,我们发现光旋转是不够的,你平移的时候,它其实是没有响应的。所以我们希望在 VR 里,做一些关于位移的东西。

为什么我需要手势操控?

VR 给我们带来最有魅力的地方就是,其沉浸感很强。我们不希望用其他方式破坏这种沉浸感,越真实越好。举一个简单的例子,假设眼前有一个苹果,你用手去抓这个苹果。其实你会发现,即使这个苹果不在那。当你做了这个动作以后,你能感受到,好像真的苹果在那一样。这是人对行为的理解,分两块:

第一块是动作本身。这个动作本身一定要符合人基础的本能反应。如果你是用手握着拳头拿起那个苹果,你会觉得很别扭,非常不自然。

还有一方面就是反馈。在真实世界里,当我们去摸这个苹果的时候,苹果会给你一个力的反馈,但是在虚拟世界里,没有这个苹果。所以我们会配合声音的反馈,或者苹果被拿起的视觉反馈,给你一个尽可能真实的感受。力的只是反馈里面很少的一部分。还有一些反馈,比如声音反馈、视觉反馈,这些都是可以同样弥补的。

234722569_huge.jpg

图片来自视觉中国

手势发展这几十年,它其实一直被错误定义,我们一直都想用手势替代鼠标,用手势替代电视机上的摇控器。我相信大家现在家里的电脑也好,笔记本也好,或者电视也好,他们都具备手势控制的功能,但我们从来不用。因为本身这个需求不是刚需,是我们假想出来的需求——我们控制电脑的时候,鼠标就在旁边,我为什么非要抬着手去控制?摇控器我按两下就可以选择,为什么非要用手?所以这个东西不适用。

再加上他们计算机一些算法的能力不是很好,资源也不是很足,它的精确度、稳定性都会差很多,所以即使这项技术发展那么多年,却一直普及不开。但是 AR 和 VR,对于手势来说,它就是很好的机会:第一个是沉浸感的需求,另外一个是我们现在的算法和计算资源都已经开始逐渐能支撑比较复杂的计算了。所以我们觉得,手势发展这几十年,这是最好的一次时机。

为什么我觉得手势操控难用?

但是大家都会说手势很难用,为什么手很难用?因为大家都觉得手很酸,定位找半天找不准,我们先来分析一下原理。我们一般在使用手势的时候,我们是用肱二头肌用力,然后手肘作为支点,小臂再控制手拿东西。本身在我们高中物理学,可能大家都学过,这是一种费力杠杆,就是这个距离远远小于这个距离,所以它是很费力的过程。再加上我们通常使用手的时候,我们都是肩膀带动我们的大胳膊,胳膊再带动小臂,小臂再带动手去做。它其实是一个二级杠杆,这个更费力。所以当我们用这么费力、复杂的结构,控制手在空中做精确移动的时候,这是非常心累的一件事情,所以这手能不酸吗?

但为什么会这样?

原因一:我们简单把 2D 的一些思维,推广到了 3D,然后认为这就是手势的运用。其实你们想想,你们谁会用一个立起来的键盘,立起来的键盘你打个 10 分钟,肯定累得要死,这是第一个。

原因二:我们在 3D 世界里过分追求对手的精确定位。因为我们在 2D 世界里,我们习惯用鼠标选择、移动然后去选的。但是在 3D 里,我们就认为手就当鼠标了,那手就得在里面移动,然后去选择,这是一个非常错误的推广。

首先不需要那么精确知道手的位置。举个例子,现在碰一下身边的任何物体,你能告诉我你碰到它的时候,你的手离你有多少厘米吗?这是不可能的。但是为什么我们能知道我碰到了?因为我碰到了就是碰到了,我不需要精确控制。

其次,不要让手去实现身体的移动。我们要还原给一个更自然的东西,就是我们的身体,我们的头。我们人身体在移动的时候,可以选择我们的位置,你头在旋转的时候,可以选择我们要交互的东西。我们手最后只需要点击一下,去交互一下。所以,它不会长时间被抬起,那它就不会很累。

原因三:是设计者需要注意的——我们在设计的时候,3D 交互空间,不要像电脑屏幕一样全部立起来,应该放在眼前、前下方的位置。因为当我们放在前下方这个位置的时候,我们的大胳膊不是长时间抬起的,也就不会感觉到那么累,所以这就是我们在设计里应该重新定义的东西。

所以不是手势难用,而是我们从来没有好好的在 3D 世界里对它进行设计。

手势操控它有不同的阶段:

阶段一:静态的手势,就是最简单的伸出手指或者手掌,这是比较简单的。

阶段二:动态的手势,大家比较熟悉,比如滑动一个界面,点击一下,这其实是大家比较理解的手势控制。

阶段三:自然的手势识别,它不需要特定的一个时间段去采集用户输入。这一阶段就是从头到位,都对它所有手、所有骨骼点进行跟踪,以及对所有行为都进行捕捉、识别——这就跟人和人之间的交互是一样的。我们希望,用算法来实现这一步,让手势追踪完全达到一种纯自然的交互方式。

怎样实现捕捉位移?

第一类,使用外设。比如 HTC Lighthouse,Oculus Touch,或 PSVR 的外接摄像头。通过一些外界的设备,来捕捉到你这个人在空间中的位置,这是一种方法。

第二类,使用设备上自己的资源,不需要外设。比如像谷歌的 Tango,它就是用平板上自己带的摄像头,包括我们公司用的 uSens,我们是用自己头盔上的摄像头,来进行一些算法的定位。

相对于第一种方法,第二种方法对算法和资源的要求都比较高,但是它有好处,就是比较便携,在哪都可以用。

怎样实现手势跟踪?

方案一:控制器,比如演示过的 HTC Vive。这一部分,这个方案有个好处,它的精确度很高,速度很快。但是因为它要借助一个外在的摄像头,并且需要连接性能强劲的 PC,所以它一定在使用场景上受限,需要固定的位置。当然这种方案可行性非常高。像一些射击类游戏,它不需要太多用手交互,可能就是一些射击按键,这样的方案就是非常好的选择。

方案二:自然手势。这种方案,它更符合人的本能,符合人的认知,它交互可能会更多一些。但是这个,具体技术实现上,有分两种:

第一种:传感器设备。比如像诺亦腾系列的产品。这个方案准确度比较高,但它需要设备的校准,需要你去学习怎么使用,且便携性不高。所以它更适合于这样一个固定、特殊的主题,比如主题公园这一类的东西。

第二种:这一种实现方式,就是我们做的技术。这项技术虽然比前两种算法要求高很多。但是它有一个好处,它不需要学习,学习成本非常低;在任何地方都可以用,无需佩戴任何外设,很适合广大消费群体在日常当中的使用。

我们不需要任何外设,我们可以支持头部的移动和旋转,然后也不需要外设,我们可以使用3D自然手势的跟踪。

(头图来自视觉中国)

最新文章

极客公园

用极客视角,追踪你最不可错过的科技圈。

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

顶楼

关注前沿科技,发表最具科技的商业洞见。