日均消耗 Token 58.8 万亿，小鹏第二代 VLA 把智驾大战带入新阶段

2026 年 3 月 16 日，小鹏汽车举办了一次非常规的活动。这次没有新车，没有宏大的舞台，何小鹏和刘先明参与了一场「Ask Me Anything」直播。

这场直播的核心，是小鹏第二代 VLA 推送前的答疑解惑。何小鹏用两个小时，传递了一个信息：那个靠工程师堆砌规则代码的辅助驾驶「旧时代」，已经成为过去。取而代之的，是一个真正能理解、会思考，并与物理世界互动的 AI 大模型。

这不是又一次 OTA，而是小鹏的一次「自我革命」。用通用智能中心负责人刘先明的话说，就是「杀死自己，回炉重造」。这背后，是一场耗资 20 多亿、每月「烧掉」3 个亿的豪赌，赌的就是与过去十年辅助驾驶「规则时代」的彻底诀别。

当小鹏决定「杀死」那个曾经的自己时，它到底在思考什么？这又将如何定义辅助驾驶的下半场？

辅助驾驶的终点，是一杯「白开水」？

何小鹏用一个关于「妈妈」的故事，试图为这场冰冷的技术变革，注入一丝人情味。

他在直播中说，过去带妈妈体验辅助驾驶，突如其来的急刹和莫名其妙的卡死，让家人充满顾虑。这触及了一个根本问题：辅助驾驶发展了这么多年，为什么依然是「极客的尝鲜品」，而不是「大众的日用品」？

答案藏在技术范式里。

在过去近 10 年的时间里，传统辅助驾驶被划分为感知、预测、规划、控制四个独立模块，工程师们像保姆一样，为每个模块写下成千上万条规则：见红灯停，遇实线不变道。这套逻辑在高速路上还可以，解决了「从无到有」的问题。

但当汽车驶入一个更真实混乱的环境，比如没有车道线的乡间土路，人车混杂的城中村，或者突然出现施工路障的街角，规则的「天花板」就显现了。

系统会因无法匹配规则而「不知所措」，更会用一脚突兀的「重刹」来回应突然窜出的外卖小哥。缺少人类司机那种基于常识的「直觉」，无法理解微开的车门后可能藏着一个孩子，也读不懂交警手势里的复杂指令。

这就是用户焦虑的根源：不安心、能力有边界、效率低下，同时在不同场景，能力表现不一致。

「好的智驾就像白开水，让人感觉不到它的存在。」刘先明这个比喻，道出了新范式的精髓。

小鹏的答案是第二代 VLA，它是一个原生的物理世界大模型。它不再需要高精地图的「拐杖」，也不再依赖人工规则的「题库」，而是像一个真正的人类司机，用「眼睛」去看，用「大脑」去思考和推理，最后做出行动。

一个广为流传的「14 秒停顿」视频，被小鹏用来诠释这种新能力。面对导航上不存在的封锁路段，车辆没有「认怂」降级，而是静静思考，在脑中推演不同路径的利弊，最终自主找到了出路。小鹏将这些定义为规则代码难以实现的「智能涌现」。

这场革命的本质，是从「教机器怎么做」到「让机器自己学」的跃迁。小鹏放弃了扮演全知全能的「上帝」，转而给了机器一个能理解世界底层规律的大脑。

烧掉 20 亿，小鹏在赌什么？

如果说特斯拉 FSD 是全球智能驾驶的标杆，那么小鹏第二代 VLA则被是「更懂中国的 FSD」。

以前的辅助驾驶是「拼凑」出来的。摄像头看到红灯，要先把图像翻译成代码（语言），代码再告诉底盘刹车。这一来一回，就像我们学英语，还得先在脑子里中译英，反应慢，还生硬。

而小鹏这次发布的第二代 VLA，直接去掉了中间的「翻译」环节。它用一种极其暴力的效率重构了底层逻辑。眼睛看到的（Vision），直接变成了动作（Action）。

在小鹏看来，辅助驾驶问题本质上是 AI 问题。其能力可以用一个公式概括：能力=模型×算力×数据×本体。

第二代 VLA 的核心，是一个参数高达 720 亿的基座模型。以前车企训练智驾，是喂给它几百万公里的视频，让它模仿。但现在，小鹏是直接造了一个「物理世界大模型」。

在这个基座世界里，有重力，有摩擦力，有光影变化。模型不仅知道「前面有车」，它还具备了长思维链推理能力（CoT）。它能理解：路面有积水，会导致轮胎抓地力会变差，然后刹车距离要变长。它开始懂物理规律了。

为了训练这个庞大的模型，小鹏建成了由 3 万张 AI 芯片组成的算力集群，高峰期「每个月要投入 3 个亿」。

在车端，自研的图灵 AI 芯片与模型、编译器联合优化，将推理延时从通用芯片的 800ms 大幅降低至 80ms。同时，「一颗图灵芯片的有效算力，约等于 10 颗 Orin-X。」这种软硬件一体的垂直整合，最大化了「有效算力」，让复杂的模型得以在车上实时运行。

如果说算力是引擎，数据就是燃料。小鹏抛出了一个颇为夸张的数字：以2月16日到22日这周为例，中国大模型的周调用量进一步冲高至5.16万亿Token，平均每天 0.7 万亿tokens。小鹏第二代 VLA 的日均token 调用量会达到惊人的 58.8 万亿，是全国人民调用数字 AI 的 80 倍。这样的信息密度「喂养」着 VLA 模型，让它在学习中成长。

同时，一个每日可模拟 3000 万公里的仿真系统，不断创造出各种极端场景，让 AI 在虚拟世界中磨炼自己。

这使得小鹏建成了「云端模型工厂」，实现了每五天一次的全链路模型迭代。自 2025 年科技日以来的130 天，小鹏已开发了超过 400 个版本的模型。它确保了 AI 的进化不是以年、而是以天为单位。

从喀什到上海，5000 公里的路考

不管宣传技术如何先进，最终还是需要现实的检验。

在第二代 VLA 推送前夕，有媒体正在进行一场「5000 公里智驾横穿中国」的极限挑战，来实测第二代VLA的全场景泛化能力。

从新疆喀什到上海，这条路线几乎涵盖了中国所有复杂路况：高速、国道、城市、乡村土路，以及沙尘暴、大雪、横风等极端天气。

挑战首日，小鹏G7完成超过1000公里行程，在复杂路况与极端天气条件交织的情况下，实现了全程“零接管”。相比依赖固定规则的传统系统，第二代VLA通过更接近人类驾驶逻辑的方式理解道路环境与交通行为，从而提升在复杂场景中的应对能力。

这背后，第二代 VLA 学习的是物理世界的底层规律，而非特定城市的交通规则，所以无论身处何地，它都能像人一样「有路就能开」。

更贴近用户的感受，是「情绪稳定指数」的提升。据小鹏内部测试，在同等复杂路况下，第二代VLA在整体综合体验上提升近5倍。这意味着更少的急刹、犹豫，还有更少的「惊吓式接管」。

这正是「妈妈们都爱用」的底层逻辑：安全是底线，而丝滑、从容、可预期的体验，才是建立信任的关键。

据了解，从 3 月 19 日起，小鹏将逐步为 P7 Ultra、G7 和 X9 Ultra 等车型的用户推送第二代 VLA。何小鹏承诺，量产推送的版本体验将「甚至更稳定、更一致」。而面向更广大的 Max 车主，能力对标行业顶尖 L2 的「蒸馏版」也将在下半年到来。

下一个十年：汽车，将成为「超级智能体」

如果说 VLA 解决了「车」的辅助驾驶问题，那么小鹏的野心，显然不止于此。

今年年初，小鹏进行了一次关键的组织变革：将智能座舱中心与自动驾驶中心合并，成立「通用智能中心」，由刘先明统一负责。

这一举动，背后是一条逐渐清晰的技术趋势，舱驾融合。它开始让汽车成为一个完整的「超级智能体」。

想象一下，当你对车说「我有点累，想在前面那个看起来不错的咖啡馆停一下」，系统不仅能理解你的模糊意图，还能通过 VLA 的视觉能力识别出哪家咖啡馆「看起来不错」，并规划路径停到车位。

这也是何小鹏所说的，「上一个 10 年是新能源的时代，下一个 10 年是智能经济体的时代。现在忽视智能体+汽车，恰似 10 年前错过新能源浪潮。」

这个统一的物理 AI 技术底座，也将同步支撑小鹏的 Robotaxi、飞行汽车、甚至人形机器人业务。从这个角度看，第二代 VLA 的发布，不仅仅是一款辅助驾驶产品的升级，更是小鹏为未来十年走向「物理 AI 世界」的基础。

据了解，目前海内外已经多家车企在接触第二代VLA，何小鹏坦言对全球泛化性和鲁棒性有信心。

中国企业在物理AI这个赛道上，已经悄然超车。

辅助驾驶的终点，是一杯「白开水」？

烧掉 20 亿，小鹏在赌什么？

从喀什到上海，5000 公里的路考

下一个十年：汽车，将成为「超级智能体」

最新文章