AI 走向真实业务,推理不能只在数据中心

摘要

当 Agent 把 AI 调用变成持续发生的工作流,边缘推理正在成为云基础设施的新战场。

 

过去两年,AI 行业最关心的是谁能训练出更大的模型、谁能建设更大的 AI 工厂、谁能拿到更多 GPU。但随着 AI 调用量真正上升,一个更现实的问题开始浮出水面:当 AI 真正被用起来,算力应该放在哪里?

训练可以集中在少数大型数据中心完成,但推理不是。

推理发生在每一次用户提问、每一次图像生成、每一次视频分析、每一次代码补全、每一次企业知识库检索,以及每一次 Agent 调用工具、读取数据、执行任务的过程中。尤其是 Agent 的出现,正在把 AI 从「一次问答」变成「连续工作流」:一个看似简单的任务,背后可能包含多轮规划、检索、调用 API、生成结果、校验反馈和再次执行。

这意味着,AI 调用不再只是用户点击按钮后的单次请求,而会变成持续发生、链式触发、对延迟和成本都更敏感的推理负载。也正因为如此,AI 的下一阶段竞争,很可能不只是模型参数和训练算力的竞争,而是推理基础设施的竞争。

Akamai 云计算服务首席技术官 Jay Jenkins 近期表示,真正的 AI 价值越来越多地发生在推理端,发生在离用户、设备和数据产生地最近的地方。

在与 NVIDIA 的合作中,Akamai 正围绕 NVIDIA AI Grid 架构推进边缘推理能力:训练完成的模型仍然可以来自中心化 AI 工厂,但推理任务可以被分发到更靠近用户、企业应用和数据源的位置执行。换句话说,AI 工厂解决的是「模型如何被生产出来」,而边缘推理网络解决的是「模型如何被持续、低延迟、低成本地使用起来」。

这个合作,也与Akamai 过去 27 年积累的边缘网络能力正好形成呼应。

作为一家长期服务于内容分发、安全和边缘网络的公司,Akamai 在全球拥有超过 4,400 个边缘节点,覆盖 130 多个国家和约 700 个城市。过去,这张网络主要用来加速网页、视频、应用和安全服务;现在,Akamai 试图把它变成 AI 时代的分布式推理网络。

为什么这个问题会在 2026 年变得更重要?

第一个原因,是 Agent 改变了推理调用的密度。

在 ChatGPT 式应用里,用户通常是发起一次请求,等待一次回答。但在 Agent 场景中,一个任务往往会被拆成多个步骤。它可能先理解意图,再检索企业内部数据,调用外部工具,生成中间结果,然后根据反馈继续修正。用户看到的是一个结果,系统背后跑的却是一串推理请求。

这会带来两个直接变化:一是调用次数上升,二是链路更长。任何一个环节的延迟,都会叠加到最终体验里;任何一次不必要的数据传输,也都会进入成本账本。对于客服、办公自动化、营销生成、软件开发、内容审核、供应链调度这类场景,Agent 如果要从 demo 走向生产,推理基础设施必须同时解决速度、稳定性和成本问题。

第二个原因,是延迟开始影响 AI 应用能不能成立。

在传统云计算时代,很多应用可以接受把数据送到远端数据中心,再把结果传回来。多几十毫秒,用户未必强烈感知。但在实时视频理解、在线交互、企业工作流自动化、工业现场分析等场景里,延迟就不再只是体验问题,而会变成效率问题、可靠性问题,甚至是部署可行性问题。

边缘推理的核心价值,就是让计算更靠近数据产生地。推理越靠近用户和业务现场,网络往返越短,抖动越容易控制,应用响应也越稳定。对 Agent 来说,这一点尤其关键:它不是一次调用,而是多次调用组成的链条;链条越长,基础设施的延迟差异就越容易被放大。

第三个原因,是成本正在决定 AI 项目能不能真正落地。

过去一年,很多企业已经意识到,AI 项目真正难的并不只是把 demo 做出来,而是把它长期跑在业务里。推理不是一次性投入,而是随着用户规模、调用频率和 Agent 工作流复杂度持续增长的成本。模型调用、GPU 占用、数据传输、出口流量、跨区域访问,都会进入企业的 ROI 账本。

这也是 Akamai 反复强调边缘推理成本优势的原因。根据 Akamai 官方披露,其 Cloud Inference 在特定测试中,相较传统 hyperscale 基础设施可实现更高吞吐、更低延迟和最高 86% 的成本降低。这个数据需要放在具体测试条件下理解,但它指向了一个明确趋势:当推理调用量上升,基础设施效率会直接影响 AI 应用的商业化边界。

第四个原因,是数据主权和合规压力正在上升。

当 AI 应用进入金融、医疗、制造、政府、能源等行业之后,数据不能随意跨境、不能随意离开本地网络,已经成为越来越明确的要求。尤其在亚太市场,印度、印尼、中国等国家和地区对数据本地化、安全合规和隐私保护都有更强要求。

边缘推理的价值在这里不只是「更快」,而是「更可部署」。如果数据可以在本地或更接近本地的位置完成处理,只把必要结果返回业务系统,企业在合规、隐私和安全上的压力都会下降。这也是为什么边缘 AI 不只是一种性能优化,而是一种基础设施形态变化。

从这个角度看,COMPUTEX 2026 上围绕边缘 AI 的讨论并不孤立。无论是边缘设备上的多模态推理,还是工业级边缘 AI 平台对算力、网络和安全能力的强调,都指向同一个趋势:AI 正在从模型展示走向真实业务,从单点能力走向持续运行的系统。

大模型训练仍然需要超大规模 GPU 集群、海量数据和高度集中的工程能力。但训练和推理的基础设施逻辑正在分化:训练追求规模、密度和效率;推理追求距离、实时性、成本和覆盖。

Jay Jenkins 的判断,实际上是在重新定义 Akamai 在 AI 时代的位置:它不是从 GPU 集群出发向外看,而是从用户、应用和数据产生的地方向内看。这个视角,正是边缘网络公司区别于传统云厂商的地方。

这也是今年 COMPUTEX 2026「AI Going Physical」真正传递出的信号:当 AI 从训练走向使用、从单次问答走向 Agent 工作流,推理也必须从中心化数据中心,走向更靠近用户、应用和数据的边缘。

 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。