都在说缺算力,90% 的 AI 芯片却被「浪费」了?

摘要

全球最昂贵的浪费,正发生在最聪明的公司里。

作者|宇航猿
编辑|靖宇

 

当你正 Vibe Coding 嗨到不行,或者跑着的项目突然停摆,打开 CLI 工具一看,「你的额度已用完」字样出现时,心态不崩是不可能的。

你还别问,问 AI 公司就是「缺算力」。

但事情真的如此吗?

Epoch AI 的分析师估算,到 2025 年底,OpenAI 等效拥有的算力约相当于 170 万块 H100。这个数字在 2023 年是 10 万块,2024 年是 40 万块——两年暴增 17 倍。英伟达市值突破 3 万亿美元,全球科技巨头每个季度砸下数百亿美元抢购芯片。一切看起来都指向同一个叙事:算力就是 AI 的石油,谁囤得多,谁就赢。

每家 AI 公司都在砸重金囤卡囤算力,怎么可能差我那点额度?!

在播客 Latent Space 的一期节目里,AI 基础设施公司 AMP 的创始人 Anjney Midha 说:「像 xAI 这样的前沿实验室,GPU 利用率可能不到 10%——这只是真正问题的冰山一角。」

我做了一次简单的换算。MFU(Model Flops Utilization,模型浮点运算利用率)是衡量 GPU 算力真正用于模型计算的指标。如果你花 5 亿美元买了一个 GPU 集群,MFU 只有 10%,意味着你实际获得的有效算力相当于只花了 5000 万美元。剩下 4.5 亿美元的算力,在空转。

说不通的地方在于,这些是全世界最聪明的工程团队,花着全世界最昂贵的预算,建造全世界最先进的计算集群——然后让 90%的算力闲着。

这不是某家小公司的管理失误,这是一个结构性的行业秘密。

巨量采购,巨量浪费

让我把这个反差拆解得更具体一些。

Epoch AI 的分析师 Josh You 在一份被广泛引用的报告中写道:「前沿实验室尚未使用大部分 AI 算力。」他追踪了主要实验室的算力增长曲线,发现一个令人不安的模式——算力的采购速度远远超过了算力的消耗速度。大量计算资源处于「储备」或「闲置」状态,像是被囤积的战略物资,而非正在燃烧的燃料。

这不是前沿实验室独有的问题。

Fujitsu 在其 2024 年发布的《AI 基础设施状态报告》中引用了一组更刺眼的数据:超过 75%的企业在峰值负载下,GPU 利用率仍低于 70%。注意,这是「峰值」——也就是说,在最忙的时候,四分之三的企业连七成算力都用不满。

VentureBeat 基于类似数据做了一个更激进的判断:「95%的 AI 基础设施开支被浪费了。」

我试着把这些数字转化为具体的金钱损失。一块 H100 的云实例每小时收费 30 到 50 美元。假设一个企业运行着 20 块 GPU 的小型集群,利用率只有 20%——这在行业中已经算不错了——那么每年因闲置而浪费的计算成本约为 20 万美元。对于拥有数万块 GPU 的前沿实验室来说,这个数字要乘以几个数量级。

这让我想起了一段被遗忘的历史。

1990 年代末,美国电信行业经历了一场疯狂的光纤铺设热潮。WorldCom、Global Crossing、Level 3 等公司在地下埋设了数百万英里的光纤电缆,投入了超过千亿美元。但到了 2001 年泡沫破裂时,行业发现一个惊人的事实:铺设的光纤中,超过 95%是所谓的「暗光纤」(dark fiber)——从未被点亮,从未承载过任何数据。它们安静地躺在地下,像是埋葬了一个时代的雄心。

这和今天 AI 行业买了 GPU 却让它们空转,是不是同一个故事的不同版本?

但这里有一个关键的区别。暗光纤的问题主要是需求侧的——当时根本没有那么多数据需要传输。而 GPU 闲置的问题更复杂,因为算力需求明明就在那里。每家实验室都在抱怨算力不够用,每个研究者都在排队等 GPU。

供给和需求都存在,中间到底卡在了哪里

GPU 65% 的时间在等待

我曾经天真地以为,GPU 利用率低是因为工作负载不够。后来我去读了一些基础设施层面的技术分析,才意识到问题完全不是这样。

GPU 不是一头只要喂食就会干活的野兽。它更像一位挑剔的米其林大厨——食材的品质、上菜的节奏、厨房的动线,任何一个环节出问题,它都会停下来等。

aixenergy 的一项研究揭示了一个令我吃惊的数字:在 AI 训练过程中,GPU 有 30%到 65%的时间处于闲置状态。不是因为没有任务分配给它,而是因为数据还没准备好

这就是所谓的「数据饥饿」问题。

训练一个大模型需要海量数据,这些数据需要经过清洗、标注、分词、打包等一系列预处理步骤,然后从存储系统加载到 GPU 的显存中。GPU 的计算速度是以每秒万亿次浮点运算(TFLOPS)来衡量的,但存储系统的 IO 速度远远跟不上这个节奏。结果就像一条高速公路上,收费站的吞吐量决定了实际车流量——不管你把公路修到几十车道宽,收费站一次只能过两辆车,后面全在堵。

但故事还没完。我在 arXiv 上找到一篇关于 GPU 能耗的论文,它揭示了一个更隐蔽的问题:即使 GPU 进入了所谓的「深层空闲状态」(deep idle),它仍然在大量耗电。Epoch AI 的数据显示,GPU 数据中心的总功耗中,约 40%直接来自 GPU 本身。这意味着那些等待数据的 GPU 不仅没在干活,还在烧电,而且烧的是不小的量。

这就像一辆法拉利堵在早高峰的环路上:引擎空转,油在烧,但车没动。而你还在为这辆车支付每小时 50 美元的租金。

还有一个更微妙的陷阱。那篇 arXiv 论文指出,目前行业通用的监控指标「集群级 SM 利用率」,其实并不能有效反映真实能效。SM(Streaming Multiprocessor,流式多处理器)是 GPU 内部的计算单元。即便监控面板显示 SM 利用率看起来正常,实际上很多计算周期在做「假工作」——数据搬运、内存同步、等待通信,而非真正的模型计算

这解释了一个我之前困惑的现象:为什么有些团队报告「GPU 利用率 70%」,但训练速度却远低于预期。因为那 70%里面,可能只有一半在做有效计算,剩下的在做后勤。峰值负载利用率就像公司的「最佳季度营收」——它是真的,但它不代表常态。用它来衡量效率,就像用你跑得最快的那一次百米成绩,来评估你的日常通勤速度。

当问题出在结构而非规模上时,堆量不仅不能解决问题,反而会让浪费等比放大。

当「用好算力」变成一门新学科

如果问题是结构性的,那解法也必须是结构性的。这正是 Anjney Midha 在那期播客中提出的核心命题。他用了一个词:「outputmaxxing」——产出最大化

这个词初听像硅谷的又一个流行语,但 Midha 给出的基准线让我意识到,它指向的是一个严肃的工程问题。他说:「我认为目前最佳实践者的 MFU,大概在 60%到 70%之间。」

60%到 70%。这是全世界最顶尖的团队、最优化的代码、最精心调校的基础设施所能达到的上限。而行业均值连这个数字的零头都不到。

这个差距意味着什么?意味着对于大多数 AI 公司来说,如果能把利用率从 10%提升到 60%,等同于在不多花一分钱的情况下,把有效算力扩大了 6 倍。不需要抢购更多 GPU,不需要建更多数据中心,不需要和英伟达打价格战——只需要把已经买来的东西真正用起来。

这和云计算行业走过的一条几乎一模一样的路。2000 年代初期,企业的物理服务器平均利用率只有 10%到 15%。每台服务器运行一个应用,剩余的算力全部闲置。然后 VMware 带来了虚拟化技术,把多个虚拟机塞进同一台物理服务器里。再后来 Docker 带来了容器化,进一步压缩了资源开销。

到今天,云服务器的利用率普遍达到 60%到 70%

从 10-15%到 60-70%。这个跃迁花了大约 15 年,催生了一个万亿美元的云计算产业,彻底改变了软件的构建和部署方式。AI 算力现在站在的位置,看起来就是 2005 年的服务器市场——知道问题在哪里,但系统性的解决方案还在酝酿中。

商业模式的变迁,正在加速这个转型。早期的 AI 基础设施市场流行「固定费用许可」和「捆绑 Token」模式——企业预付一大笔钱,买下一定量的算力配额,用不完也不退。这种模式天然鼓励浪费,因为边际成本为零,没有人有动力去优化利用率

VentureBeat 的分析指出,随着行业逐渐转向按使用量计费,闲置基础设施的成本压力,正在从「被忽略的背景噪音」变成「生产阶段的紧急事项」。

当每一个空转的 GPU 周期,都直接对应着账单上的一个数字时,「产出最大化」就不再是一个技术理想,而是一个财务命令。

与此同时,环境成本也在倒逼效率革命。

Towards Data Science 的分析指出,多数 GPU 的闲置意味着全球 AI 计算的碳排放中,有相当一部分是「无效排放」——它们没有产出任何智能,只是把电变成了热。GPU 数据中心 40%的功耗来自 GPU 本身,而其中大量消耗在空转和深层空闲状态上。这不仅仅是钱的问题,更是资源和环境的问题。

Fujitsu 在 2024 年发布了一份技术白皮书,标题直截了当:「最大化 GPU 利用率」。DevZero、Prodia、Mirantis 等一批基础设施公司也纷纷发文探讨「为何 80%的 GPU 闲置」以及各自的优化策略。这种行业范围内的集体焦虑,本身就是一个信号——问题已经大到没人能继续假装看不见了。

人们忽略了一件重要的事,在 AI 竞赛的叙事中,「规模」一直是唯一的主角。谁拥有最多的 GPU、谁训练了最大的模型、谁花了最多的钱——这些是头条新闻的素材。但效率从来不是头条。没有人会写「某公司把 GPU 利用率从 15%提升到 50%」的新闻,尽管从实际产出来看,这可能比多买 10 万块 GPU 更有价值。

Midha 的「产出最大化」之所以值得认真对待,是因为它暗示了一个范式转移:

AI 竞赛的护城河正在从「谁能买到更多算力」转向「谁能从同样的算力中榨取更多智能」。前者是一场资本的消耗战,后者是一场工程的精密战。前者的上限取决于你的银行账户和英伟达的产能,后者的上限取决于你对计算物理学、分布式系统和数据工程的理解深度。

这不是一个渐进式的优化问题,也是一门新学科的诞生。

每一次基础设施革命似乎都遵循相同的剧本:先是疯狂建设,然后发现大部分产能在浪费,接着一批新的公司和技术出现,专门解决「如何用好已经建好的东西」。铁路时代如此,电力时代如此,互联网时代如此,云计算时代如此。AI 算力走到了这条弧线的拐点上。

但这一次有一个有意思的不同。之前每一次效率革命,优化的对象都是相对「笨」的资源——蒸汽、电力、带宽、服务器周期。而这一次,我们试图优化的资源本身,正在被用来创造某种形式的智能。当你把一块 GPU 从空转状态「唤醒」,让它真正参与模型训练时,你增加的不仅仅是利用率百分比——你增加的是这个世界上正在思考的硅基大脑的数量。

也许,AI 时代最重要的问题从来不是「我们能制造多少算力」,而是「我们已经拥有的算力中,有多少真正在思考」。

 

头图来源:Tatum.io

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。