对话极越智能软件副总裁潘云鹏:智能化汽车的未来与极越 01 的创新实践

摘要

汽车行业的智能化正在向AI定义汽车的方向发展

4 月 25 日,极越汽车机器人携全新产品阵容亮相北京车展,旗下第二款车型——AI 智能纯电轿车极越 07 迎来车展首秀,以极具艺术审美的中国原创设计,赢得「最美 7 系」头衔。极越与 NVIDIA 再度联手,1000TFLOPS 的高性能计算平台 Thor 将于 2026 年量产上车。同时,极越 01 也将升级最新 V1.5.0 版本,PPA 智驾将在 100 个城市进行尝鲜体验,又一次为用户送上月度「新车」。

在随后的4月26日,在极越的workshop上,潘云鹏分享了极越在智能化产品上的深度思考和实践。他首先区分了两种智能形态:逻辑推理型和生物启发型。逻辑推理型智能依赖于数学公式和推导,而生物启发型智能则通过模仿大脑神经网络的信号传递,通过大量学习和观察来发现规律,类似于我们学习语言时的语感培养。

潘云鹏指出,汽车行业的智能化正在向 AI 定义汽车的方向发展,这要求汽车具备更高的算力、更丰富的数据和更复杂的参数模型。他引用了「Scaling Laws」(大力出奇迹)的概念,强调了数据和算力对于提升性能的重要性。

极越 01:智能化汽车的三大基础能力

极越 01 被定义为具备三大基础能力的汽车机器人:自然交流、自由移动和自我成长。

  • 自然交流:极越 01 的 AI 核心能力在于全端侧的语音交互,这得益于其搭载的 8295 芯片和两个 NPU 的配置。这种交互方式具有多模态识别、极速响应和隐私保护的特点。潘云鹏提到了几个关键场景,包括车外语音泊车、可见即可说、离线语音控制以及文心一言的原生支持。

  • 自由移动:极越 01 的 PPA(车位到车位)功能展现了高阶智能驾驶的能力,特别是其行泊一体和纯视觉方案。潘云鹏透露,极越 01 的 PPA 功能将逐步扩展至全国 300 至 360 个城市。

  • 自我成长:极越 01 通过 Simo 学习功能和数据闭环,实现了产品的持续迭代和优化。潘云鹏强调,极越 01 在过去 5 个月内进行了 5 次 OTA 升级,展示了其快速迭代的能力。

纯视觉智能驾驶的决策与优势

潘云鹏解释了极越 01 放弃激光雷达、采用纯视觉方案的原因。他认为,人类驾驶主要依赖视觉,而极越 01 的摄像头和毫米波雷达已经能够提供超越人类的视觉范围。此外,激光雷达的高成本、环境敏感性以及与其它感知系统的冲突也是考虑因素。

他展示了极越 01 在复杂场景下的表现,并强调了纯视觉方案在性能和成本上的优势。潘云鹏还提到,极越 01 的开发并非从零开始,而是站在百度十年智驾积累的基础上,通过一亿公里的数据积累,证明了纯视觉方案的可行性。

极越 01 的智能化进展与未来展望

潘云鹏分享了极越 01 在智能化方面的几个关键进展:

  • 视觉大模型:通过将多个小模型合并为一个大模型,极越 01 在智驾性能上取得了显著提升,同时降低了算力需求。

  • 自我成长机制:极越 01 通过 Simo 反馈系统,实现了问题的快速分类和解决,提高了用户满意度和产品质量。

  • PPA 功能的快速普及:极越 01 的 PPA 功能日均渗透率达到了 50%,并且在新版本中将进一步扩展。

最后,潘云鹏展望了 2024 年作为智能化汽车发展的拐点,预示着性能和市场参与者的「涌现」。他通过展示极越 01 与特斯拉在美国的表现对比,以及极越 01 在杭州繁忙路段的实际表现,证明了极越 01 在纯视觉智能驾驶领域的领先地位。

 

 

以下为对话实录,部分有调整、删减:

 

Q:想问一下,纯视觉方案在 AEB 方面的表现,跟激光雷达有多少差距还是没有差距?

潘云鹏:我们对于 AEB 的测试过程中发现,激光雷达对刹停的距离和时间影响并不大,更多的还是在一些转弯场景,包括急速场景上,把 AEB 的上限拉很大。我们也在不断的提升 AEB 的上限。

 

Q:我想问一下您,在两年前可以被称为激光雷达的元年,这两年又去高清地图化,发表了纯视觉的路线,您认为抛除这三项态势,未来的自动驾驶发展方式是什么样的,需要走哪条路线,或者两种都搭载?

潘云鹏:这个行业里观点越来越类似,有几个关键词,一个是去图化,一个是激光雷达,还有一个端到端,大家聊的比较多一点,可能在相当长的一段时间都会有。

今年纯视觉的玩家越来越多,但激光雷达也会存在,我相信很长一段时间里都是并存的状态,每一家公司的数据积累不一样,每个公司的生态也不一样,我相信一定是多套方案。相同的场景并不一定谁比谁更好,比如纯视觉方案,大家聊激光雷达会聊成本和可靠性,我们的纯视觉把售后成本压低,但是研发成本是提高的,对数据量提升,对算力的要求越来越大,我们尽力把整个算力扩大到 2.21。

总体而言一定是每家公司根据自己的特点选择的最合适的路线。

第二,大家现在体验到很多无图的版本或者精图的版本,都能发现一个问题,就是经验信息越多的地方,智驾的体验会更好,更安心,特别在一些路口场景,一些路口特别复杂,如果完全没有经验信息,可能会出问题。我们依然觉得有没有经验信息对现阶段用户体验影响非常直接,所以大家现在聊到很多的无图方案本质上来讲也是混合方案,有的地方是无图有的地方是有图,有图指的是高精地图。

第三,每家公司的生态不一样,百度是具备车道级地图的,手大家应该都用过百度的车道级导航,对我们而言,这是先发优势。虽然我们也是无图,但是总体来讲,我们天然的在地图里会具备一些比起一般的地图更多的信息,所以我们的智驾体验和安心感比较好,在上周的中国智驾大赛,极越 01 在北京站获得了第一名的成绩,当时参赛选手有极狐、问界、小鹏和蔚来,我们是 95 分,第二名是 93 分。

关于有图无图这件事,一定是循序渐进的过程,即使是开发了无图方案,也不可能把已有的有图方案全部撤掉,整个行业在这点上判断是一致的。

最后说端对端。它分两种,但总体来讲,背后的基础逻辑都要有大量高质量的数据。当前实现端到端还有点早,还是需要大量高质量的数据来积累。大家还在探索的过程,当然这也是极越下一步重点的方向。

 

Q:我有三个问题,第一个,作为一个用户现在很多企业都有智驾,也都开在城区,我们该如何判断它这个智驾好用还是不好用?好坏的评判标准,作为一个普通人来说怎么评判?第二个问题,以后全国都能开了之后就不需要我开车了,如果不是非常注重驾驶质感,不是一个驾驶爱好者,对于车的底盘要求不那么高,从开发的角度来说,一个好的底盘对智驾的提升有帮助吗?第三,有些企业说全国都能开了,就全部都开了,为什么我们一百座五十座,有一个数据量的累计,是这样开的?

潘云鹏:我先回答第二个问题。

每个人的需求不一样,有些人在意驾驶质感,有些人不在意,一个好的底盘对个智驾的体验一定是有帮助的,包括它的刹车响应和提速的响应,百分之百有帮助。如果对于一个响应迅速,包括调教的更加柔和的底盘,在智驾和人驾的场景一定不一样,这个相对来讲比较容易判断。

不光智驾的底盘,包括电机,电驱动,对客户的反映是直接的,在安全角度来讲,制动率,制动响应时间延迟,速度越高,每一秒影响都非常大。

第一个问题和第三个问题放在一起说,为什么大家说无图都能开,全国都能开,我们还一步一步的走,这和我们的安全判断标准有关。第一,我们认为它安全,开放一小段,对用户的体验没有任何帮助;第二,你开了,天天被迫接管,对你的口碑也不太好,特别是比较新的品牌,这个时候把用户惊吓几次,如果不幸的话发生几起事故,对品牌的伤害比较大。我们对于整个开车的标准要求还是很严格的,这个大家可以放心。

我们主要是服务用户,我们并不是慢慢营销导向的公司,我们还是选取了用户量最大的城市,我们在这些城市里会做到比较完整的测试,我们因为百度的加持,我们的地图经验信息很丰富,我们会把地图不太准确的地方挑出来,还是保证安全安心的标准上逐步的开城,总体开城的逻辑是这样。

一百城两百城三百城,本质上是数据迭代的过程,有了更多的数据,在 95% 的场景能非常好的覆盖的基础上,可能还要花 500% 的精力去覆盖剩下的 5% 的场景,这个时候要花的时间更长,开城也是遵循这个标准的逻辑,满足工程研发的规律,数据逐步迭代。

 

Q:之前也体验过一些 NOA 的产品,咱们友商的,他可能在场景处理上还 OK,但是它的起步停车非常容易让人晕车,咱们在舒适度层面,规控逻辑上是怎么处理的?

潘云鹏:这是一个非常好的工程问题,我们也碰到了,很多用户关于主观体感上的问题特别多,有的用户觉得刹车太急会点头,不舒服,有的用户觉得起步太慢,丢失了先机,特别生气,还有用户,我们发现早上的时候他想跟的近一点,晚上的刹车太急,又觉得不安全,这是一个非常众口难调的问题。

首先对于点头这件事,肯定可以解决,就是刹车是否做到柔和,包括自动驻车的逻辑和办法。在其他那几个问题,还是通过数据的算法,学习本人的行为,只能通过这种方式,克服很多主观的场景。

 

Q:我们开一百城的速度很快,想问一下开一百城的标准是怎么样的,什么样的标准,比如覆盖率?

潘云鹏:我们之前开放了北京、上海、杭州、深圳、广州主要的城市道路,可能 95% 覆盖的道路都覆盖了,这个标准没有变过,因为百度地图会通过高频的行驶区域,会把这些区域做一个开通,每个城市的大小不太一样,纯地面道路几千公里的覆盖是必须的,这是大城市。

 

Q:极越目前纯视觉的智驾路线是如何实现实时的环境感知和准确决策的制定?现在在纯视觉的智驾方案这一块,很多车企开始布局我们,包括小鹏这些车企,面对市场的竞争,您是如何看待的?再有一个,文心一言和 Simo 的打通,文心一言的覆盖率是否在车机的领域够用,未来会有哪些方向成为核心的竞争力?

潘云鹏:先说视觉,总体来讲,感知分为两部分,一部分是对周边环境,所谓的道路结构的感知,刚才讲到百度地图天生就有经验信息的优势,知道的更多。第二,我们最开始是 BEV,后面开始做 OCC,也是为了在没有办法识别所有奇形怪状的障碍物时,做一个避障或者避撞的行为。

第一次发布 OCC 的时候,有一个媒体把那个装矿泉水的塑料袋扔在车前,极越 01 就绕过去了,这是很有难度的。因为它是透明的,颜色千奇百怪,形状千奇百怪,但我们还是通过升级 OCC 的算法,完成了这个感知的迭代。

我们的视觉感知的大模型 VTA,有三款形式,分别像狙击枪、手枪和匕首,从远到近,帧率从高到低,分辨率从低到高。最低的分辨率可以做到 5 个厘米,5 个厘米基本上是超声波雷达的一个精度要求,非常近。

在精度问题上,我们通过大量数据训练,通过 1550 的激光雷达,进行大量的数据训练和标注,完成它的精度需求。

而且,在摄像头之外,我们还是会有毫米波雷达,有多重的保障,保证感知的高精度。

SIMO 与文心一言的融合,现在还只是开始,因为百度对 AI 投入越来越多,文心一言大模型会越来越好,像一个智能体,未来想象力是无限的。从而也会让 SIMO 的认知能力得到提升,表达一定也会更加顺畅,做的内容会越来越多。  玩家越来越多,电车越来越多,本质上并不是要拼的你死我活,技术越有多样性,对用户来讲是个好事,最后还是用户体验来说话,用数据来说话。

最终应该是百花齐放,纯视觉、非纯视觉、5 颗激光雷达,8 颗激光雷达,这都不重要,只要用户的成本是可接受的,体验是安全舒心的,这都是挺好的。

主持人:那我们今天就这样,我们下次再见,谢谢大家!

 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。