地平线余轶南：通往智能驾驶的深度学习之路

编者注：本文原载于知乎专栏，作者为地平线机器人（Horizon Robotics），极客公园已获得转载授权。

4 月 11 日晚，地平线第三期微讲座正式开讲，主讲人是地平线机器人智能驾驶研发总监余轶南。本次讲座主题为「通往智能驾驶的深度学习之路」，主要包括环境结构化感知和语义理解两个方面。

自从 2012 年深度学习爆发以来，深度学习在图像、自然语言理解、语音技术等方面都有了非常多的突破和发展，这些技术的提高也使得自动驾驶方面的感知技术有了非常大的进步。

以计算机视觉为例，在传统的辅助驾驶技术中，通过摄像头来对路面中的物体进行识别和检测，主要会遇到这样的一些问题:

比如说物体的遮挡，物体尺度的变化，还有一些因为视野不够所造成的一些障碍，只能对物体进行部分的感知。

这些问题在传统的计算机视觉中都是一些非常困难的问题，也使得传统的计算机视觉需要人工去设计非常多的结构来去处理这样的一些问题。

在有了深度学习以后，这些问题变得更加容易一些。模型所需要知道的就是人工的标注，哪些是属于车辆，而哪些不属于车辆，然后通过非常大量的数据进行训练，从而得到最后的结果。

这种模式我们一般也称作为 end to end，也就是「端到端」的训练。

这种方法在一些简单的自动驾驶任务中已经取得了非常不错的结果。

如图中所示，我们在车辆的检测，车道线、可行驶区域这些问题上面都取得了非常大的进步，使得这些技术可以被真正应用在辅助驾驶的系统中。

因为深度学习具有非常强大的数据拟合能力，使得我们在问题的建模时变得非常简单，我们的研究人员在这种情况下只需要关注问题的输入和问题的输出就可以了。

例如像可行驶区域这样的技术难题，在过去的方法中是非常难以被解决的。

那么对于深度学习来说，我们只需要标注海量的可行驶区域的图片，然后将这些图片送到神经网络中，使得神经网络去拟合这样的输出，便可以达到我们的目的，这样的结果在我们目前所看到的各种系统中已经非常常见了。

例如 mobileye 的 IQ3 的系统已经可以做到非常好的物体检测，包括车辆的检测，行人的检测，交通标志牌和地面的交通标志物，还有可行驶区域的检测。

又例如 Nvidia 今年早些时候所展示的新的系统，已经可以处理非常多类别的检测和识别问题。

上面的这些结果对于做计算机视觉方向的人来讲，都不是什么特别难的问题。但是我们在这里想讨论一个问题，就是这些结果是真正自动驾驶想要的结果吗？

对于辅助驾驶系统来说，车道线、前方车辆的距离、行人这几种类型是非常关键的要素。

我们的系统需要在车辆非法变线、车辆和行车的距离保持过近等情况下，对我们的驾驶员进行报警就可以了。

而车辆本身事实上并不关心周边的环境的变化，周边环境的结构。但是对于自动驾驶来说，这样的简单的感知和识别是不足够的。

这张图里展示我们目前系统整体的结构框图。对于自动驾驶系统来说，整个环境的 3D 建模和物体的运动估计是尤为重要的技术。

当我们的车辆在直行、换线、通过十字路口的时候，它需要对车辆的 360 度范围之内的运动物体进行感知和运动的跟踪。

那么物体在图像上的（Bounding box）本身并没有任何的含义，而只有物体本身的结构，物体的运动方向，物体和车辆的相对的关系，才是我们真正关心的东西。

因此我们将环境感知更加聚焦在以规划和决策为目的的环境建模上面。从而来倒推我们的感知系统需要做出哪些相应的技术，来完成这样的建模。

决策系统希望从感知系统获得前方车辆的距离、速度、姿态、运动的角度等信息。那么这些信息如何从视觉或者其他的传感器获得，变成了技术的关键。

我们看到这方面的技术上的优势，才是真正的深度学习与其他传统算法之间的巨大差距所在。

DeepManta 是 CVPR2017 非常有意思的一篇文章。它使用一个联合的深度神经网络，将物体的检测、3D 结构的感知和预测放在了一起。

这样做到了一个 end to end 的 Learning 的系统，可以极大化地共享检测和姿态估计的计算权重，使得整个网络在一个比较小的计算量的前提下同时获得物体检测和 3D 姿态估计的结果。

另外一篇文章也是今年 CVPR 非常引人注目的一个工作，它使用一个神经网络来对人的各个关节进行感知和建模，并同时学习各个关节之间的相互连接关系，被用于做非常精确的人的姿态估计。

我们当前的自动驾驶系统中对人的检测往往只检测人的位置，并通过（bounding box）来预测人的位置和距离，这种感知结果是无法对人的运动进行精确估计的。

尤其是对城市环境的无人驾驶，我们需要非常精确的人的运动估计。因此对人的姿态估计和运动建模，成为了一个非常重要的研究热点。

因此同时我们已经可以看到，类似于可行驶区域这样的技术，已经有非常多的研发跟产品面世。这可行驶区域只是对驾驶环境中的部分要素进行了语义标记。

而面向无人驾驶，我们希望对场景中的任何一个要素都进行非常准确的语义表达。

上图是（citescapes）数据库中的一个示例，它包含了 19 个类别的语义表达，通过深度神经网络，我们可以通过从原图进行学习，对每一个图像像素进行一个语义的表达。

那么结合物体的 3D 结构，我们可以非常准确地获得整个场景的语义表达和每一个物体的结构化表达。

相比于激光雷达和毫米波雷达，基于视觉的感知技术无法直接获得物体的深度，但是视觉可以获得非常高分辨率的感知结果。

因此，结合激光雷达、毫米波雷达和摄像头的（sensor fusion）技术，使得我们可以用非常廉价的设备，对整个场景进行非常高分辨率的语义感知和非常高准确度的深度估计。这将是无人驾驶的技术中非常重要的组成部分。

从而最后获得整个环境的语义结构建模。目前来说，只有深度学习才可以完成这样高复杂度的环境感知和传感器融合的方案。这些结果是传统的计算机视觉或其他算法完全无法达到的。

在这里最后总结一下，基于深度学习的感知技术，使得我们可以对场景进行更复杂的感知建模，使得我们的感知从二维变成三维，使得我们从简单的车辆、行人和交通标志牌的感知变成全场景的感知。

谢谢大家！

提问环节

提问 1：基于深度学习的自动驾驶算法，是否会存在如果自动测试案例覆盖不够，存在学习盲点的问题，地平线是如何保证自动驾驶测试案例的全覆盖的？

余轶南：任何基于数据学习的算法都有可能会存在，因为数据覆盖不够而造成的漏识别或者误识别的问题。

因此对于深度学习系统来说，数据的收集、标注、训练是非常关键的三个步骤。

虽然这种可能性是必然存在的，但是我们仍然希望通过数据的收集和不断的训练来减少这种可能性的发生。

我们需要可以（scaleup）的数据采集系统，非常廉价的数据标注系统，和可以吞吐海量数据的并行训练平台。

方便的工作，使得我们可以尽可能地覆盖更多的数据 case，从而减少误识别和漏识别的发生。

提问 2：由于 AI（深度学习）这几年的突破，特别是有监督学习下的突破使得深度学习这几年很火，但深度学习的发展历史起起伏伏，未来会怎样？特别是如果在无监督学习下未取得突破情况下。

余轶南：目前几乎所有的成功案例都是基于有监督学习的案例，在无监督学习中也分为两种。

一种是我们传统的所谓的无监督学习，这种算法不需要使用任何的标注数据，但是目前来看还没有在任何的领域中取得非常大的突破。

另外一种方式事实上已经在非常广泛的进行应用，那就是使用无人工标注的数据进行训练。比如在广告系统中用户所点击的数据，可以被天然的用于 CTR 的训练。

这种方式可以在没有人工标注的情况下产生非常大量的训练数据，虽然最近半年「对抗学习」是非常火热的研究方向，但是我个人对这个方向在自动驾驶中的应用仍然保持一个怀疑态度。

关于无监督学习的问题，目前来说还没有看到任何的有用之处，保持谨慎的怀疑。另外就是我没有做过无监督学习的方案。

提问 3：作为高校来说，资金，人员都不及公司的投入及规模，那作为自动驾驶研究的参与者，应该从哪个角度去切入自动驾驶这个领域。

余轶南：自动驾驶在过去的很多年中，一直是主要的研究方向。因为技术上一直有很多的不足，因此产业对这个方向一直关注度比较少。

但是随着这几年的深度学习和传感器的发展，使得自动驾驶慢慢的变成了可能，产业界开始投入巨大的力量来推动这个方向的发展。

在这样一种情况下，我认为对于高校来说，应该更加关注那些短期内不能落地的研究方向，还有现在产业界无法关注到的方向。

另外作为产业界的一员，我们也非常希望能跟这方面的高校和研究单位进行合作，共同推进自动驾驶的前沿方向研究和产业落地。

提问 4：目前了解深度学习用于环境感知主要是目标类型的识别，如何将深度学习和多传感器信息融合合理结合，发挥深度学习的优势？

余轶南：从环境感知出发，我们其实并不只关心目标的类型。我们更多关心的是目标的位置、姿态、运动方向。

各种传感器，包括激光雷达、毫米波雷达、摄像头、地图，这些数据都可以作为深度学习的输入。

而深度学习的一个非常大的优势，就是可以在整个网络中将不同的数据源进行非常有机的整合。深度学习的网络本身可以自适应的调节不同数据源信号的权重。

提问 5：视觉采集中是否具有距离反馈？视频采集数据和雷达信号采集是如何映射起来。

余轶南：自动驾驶的传感器方案中，可以同时安装激光雷达、摄像头。那么通过对摄像头和激光雷达的内外参标定，就可以对视频数据和激光雷达数据进行精准的映射。

提问 6：自动驾驶和无人驾驶是否有区别？除了深度学习在其中是否处于绝对核心地位，未来在自动驾驶领域真正处于核心地位的到底是算法还是汽车技术本身？

余轶南：我认为自动驾驶和无人驾驶还是有一定的区别的。从字面含义来讲的话，自动驾驶更多是指人在驾驶中，汽车有更多的自主行为。

无人驾驶应该是完全不考虑人的驾驶行为，这两种方向在技术路径上还是有很大的区别的。

我认为深度学习是自动驾驶中的一个非常重要的组成部分，但绝对不是完全的核心地位。

自动驾驶也好，无人驾驶也好，是一个非常复杂的一整套系统，我们很难讲里边的任何一个组成部分是完全的核心地位。

提问 7：关于激光雷达的问题, 我看到很多厂家说未来 2、3 年，只要有足够的订单，激光雷达的成本可以降到 500 美金？

余轶南：我不是做激光雷达的，因此我对于上述的表态还是有疑问的。比如，多少线数的激光雷达可以做到 500 美金。

提问 8：是 1 线？4 线？还是 64 线，或者更高？

余轶南：很多目前的指标还是比较含糊，所以我们拭目以待吧。

提问 9：地平线的自动驾驶技术使用增强学习吗？车辆上路以后还能够自我学习吗？

余轶南：是的，我们在模拟器中做增强学习。传感器融合是必然的方向，单一传感器都有比较大的硬伤，或者单一传感器想做到全面会非常昂贵。

摄像头方面，Mobileye 已经证明了这方面的技术可行性。

雷达方面，不论是激光雷达还是毫米波雷达都已经被广泛使用（不只是汽车）。因此技术本身都比较成熟，成本和系统的全面性会是重要的考量点。

提问 10：人驾驶的时候只用视觉就可以了，也没有用激光，将来有没有可能出现只用视觉的自动驾驶技术？

余轶南：非常有可能。

提问环节

最新文章