日均消耗 Token 58.8 万亿,小鹏第二代 VLA 把智驾大战带入新阶段

摘要

辅助驾驶的终局之战已打响。

2026 年 3 月 16 日,小鹏汽车举办了一次非常规的活动。这次没有新车,没有宏大的舞台,何小鹏和刘先明参与了一场「Ask Me Anything」直播。

这场直播的核心,是小鹏第二代 VLA 推送前的答疑解惑。何小鹏用两个小时,传递了一个信息:那个靠工程师堆砌规则代码的辅助驾驶「旧时代」,已经成为过去。取而代之的,是一个真正能理解、会思考,并与物理世界互动的 AI 大模型。

这不是又一次 OTA,而是小鹏的一次「自我革命」。用通用智能中心负责人刘先明的话说,就是「杀死自己,回炉重造」。这背后,是一场耗资 20 多亿、每月「烧掉」3 个亿的豪赌,赌的就是与过去十年辅助驾驶「规则时代」的彻底诀别。

当小鹏决定「杀死」那个曾经的自己时,它到底在思考什么?这又将如何定义辅助驾驶的下半场?

辅助驾驶的终点,是一杯「白开水」?

何小鹏用一个关于「妈妈」的故事,试图为这场冰冷的技术变革,注入一丝人情味。

他在直播中说,过去带妈妈体验辅助驾驶,突如其来的急刹和莫名其妙的卡死,让家人充满顾虑。这触及了一个根本问题:辅助驾驶发展了这么多年,为什么依然是「极客的尝鲜品」,而不是「大众的日用品」?

答案藏在技术范式里。

在过去近 10 年的时间里,传统辅助驾驶被划分为感知、预测、规划、控制四个独立模块,工程师们像保姆一样,为每个模块写下成千上万条规则:见红灯停,遇实线不变道。这套逻辑在高速路上还可以,解决了「从无到有」的问题。

但当汽车驶入一个更真实混乱的环境,比如没有车道线的乡间土路,人车混杂的城中村,或者突然出现施工路障的街角,规则的「天花板」就显现了。

系统会因无法匹配规则而「不知所措」,更会用一脚突兀的「重刹」来回应突然窜出的外卖小哥。缺少人类司机那种基于常识的「直觉」,无法理解微开的车门后可能藏着一个孩子,也读不懂交警手势里的复杂指令。

这就是用户焦虑的根源:不安心、能力有边界、效率低下,同时在不同场景,能力表现不一致。

「好的智驾就像白开水,让人感觉不到它的存在。」刘先明这个比喻,道出了新范式的精髓。

小鹏的答案是第二代 VLA,它是一个原生的物理世界大模型。它不再需要高精地图的「拐杖」,也不再依赖人工规则的「题库」,而是像一个真正的人类司机,用「眼睛」去看,用「大脑」去思考和推理,最后做出行动。

一个广为流传的「14 秒停顿」视频,被小鹏用来诠释这种新能力。面对导航上不存在的封锁路段,车辆没有「认怂」降级,而是静静思考,在脑中推演不同路径的利弊,最终自主找到了出路。小鹏将这些定义为规则代码难以实现的「智能涌现」。

这场革命的本质,是从「教机器怎么做」到「让机器自己学」的跃迁。小鹏放弃了扮演全知全能的「上帝」,转而给了机器一个能理解世界底层规律的大脑。

烧掉 20 亿,小鹏在赌什么?

如果说特斯拉 FSD 是全球智能驾驶的标杆,那么小鹏第二代 VLA则被是「更懂中国的 FSD」。

以前的辅助驾驶是「拼凑」出来的。摄像头看到红灯,要先把图像翻译成代码(语言),代码再告诉底盘刹车。这一来一回,就像我们学英语,还得先在脑子里中译英,反应慢,还生硬。

而小鹏这次发布的第二代 VLA,直接去掉了中间的「翻译」环节。它用一种极其暴力的效率重构了底层逻辑。眼睛看到的(Vision),直接变成了动作(Action)。

在小鹏看来,辅助驾驶问题本质上是 AI 问题。其能力可以用一个公式概括:能力=模型×算力×数据×本体。

第二代 VLA 的核心,是一个参数高达 720 亿的基座模型。以前车企训练智驾,是喂给它几百万公里的视频,让它模仿。但现在,小鹏是直接造了一个「物理世界大模型」。

在这个基座世界里,有重力,有摩擦力,有光影变化。模型不仅知道「前面有车」,它还具备了长思维链推理能力(CoT)。它能理解:路面有积水,会导致轮胎抓地力会变差,然后刹车距离要变长。它开始懂物理规律了。

为了训练这个庞大的模型,小鹏建成了由 3 万张 AI 芯片组成的算力集群,高峰期「每个月要投入 3 个亿」。

在车端,自研的图灵 AI 芯片与模型、编译器联合优化,将推理延时从通用芯片的 800ms 大幅降低至 80ms。同时,「一颗图灵芯片的有效算力,约等于 10 颗 Orin-X。」这种软硬件一体的垂直整合,最大化了「有效算力」,让复杂的模型得以在车上实时运行。

如果说算力是引擎,数据就是燃料。小鹏抛出了一个颇为夸张的数字:以2月16日到22日这周为例,中国大模型的周调用量进一步冲高至5.16万亿Token,平均每天 0.7 万亿tokens。小鹏第二代 VLA 的 日均token 调用量会达到惊人的 58.8 万亿,是全国人民调用数字 AI 的 80 倍。 这样的信息密度「喂养」着 VLA 模型,让它在学习中成长。

同时,一个每日可模拟 3000 万公里的仿真系统,不断创造出各种极端场景,让 AI 在虚拟世界中磨炼自己。

这使得小鹏建成了「云端模型工厂」,实现了每五天一次的全链路模型迭代。自 2025 年科技日以来的130 天,小鹏已开发了超过 400 个版本的模型。它确保了 AI 的进化不是以年、而是以天为单位。

从喀什到上海,5000 公里的路考

不管宣传技术如何先进,最终还是需要现实的检验。

在第二代 VLA 推送前夕,有媒体正在进行一场「5000 公里智驾横穿中国」的极限挑战,来实测第二代VLA的全场景泛化能力。

从新疆喀什到上海,这条路线几乎涵盖了中国所有复杂路况:高速、国道、城市、乡村土路,以及沙尘暴、大雪、横风等极端天气。

挑战首日,小鹏G7完成超过1000公里行程,在复杂路况与极端天气条件交织的情况下,实现了全程“零接管”。相比依赖固定规则的传统系统,第二代VLA通过更接近人类驾驶逻辑的方式理解道路环境与交通行为,从而提升在复杂场景中的应对能力。

这背后,第二代 VLA 学习的是物理世界的底层规律,而非特定城市的交通规则,所以无论身处何地,它都能像人一样「有路就能开」。

更贴近用户的感受,是「情绪稳定指数」的提升。据小鹏内部测试,在同等复杂路况下,第二代VLA在整体综合体验上提升近5倍。这意味着更少的急刹、犹豫,还有更少的「惊吓式接管」。

这正是「妈妈们都爱用」的底层逻辑:安全是底线,而丝滑、从容、可预期的体验,才是建立信任的关键。

据了解,从 3 月 19 日起,小鹏将逐步为 P7 Ultra、G7 和 X9 Ultra 等车型的用户推送第二代 VLA。何小鹏承诺,量产推送的版本体验将「甚至更稳定、更一致」。而面向更广大的 Max 车主,能力对标行业顶尖 L2 的「蒸馏版」也将在下半年到来。

下一个十年:汽车,将成为「超级智能体」

如果说 VLA 解决了「车」的辅助驾驶问题,那么小鹏的野心,显然不止于此。

今年年初,小鹏进行了一次关键的组织变革:将智能座舱中心与自动驾驶中心合并,成立「通用智能中心」,由刘先明统一负责。

这一举动,背后是一条逐渐清晰的技术趋势,舱驾融合。它开始让汽车成为一个完整的「超级智能体」。

想象一下,当你对车说「我有点累,想在前面那个看起来不错的咖啡馆停一下」,系统不仅能理解你的模糊意图,还能通过 VLA 的视觉能力识别出哪家咖啡馆「看起来不错」,并规划路径停到车位。

这也是何小鹏所说的,「上一个 10 年是新能源的时代,下一个 10 年是智能经济体的时代。现在忽视智能体+汽车,恰似 10 年前错过新能源浪潮。」

这个统一的物理 AI 技术底座,也将同步支撑小鹏的 Robotaxi、飞行汽车、甚至人形机器人业务。从这个角度看,第二代 VLA 的发布,不仅仅是一款辅助驾驶产品的升级,更是小鹏为未来十年走向「物理 AI 世界」的基础。

据了解,目前海内外已经多家车企在接触第二代VLA,何小鹏坦言对全球泛化性和鲁棒性有信心。

中国企业在物理AI这个赛道上,已经悄然超车。

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。