AI 走向真实业务，推理不能只在数据中心

过去两年，AI 行业最关心的是谁能训练出更大的模型、谁能建设更大的 AI 工厂、谁能拿到更多 GPU。但随着 AI 调用量真正上升，一个更现实的问题开始浮出水面：当 AI 真正被用起来，算力应该放在哪里？

训练可以集中在少数大型数据中心完成，但推理不是。

推理发生在每一次用户提问、每一次图像生成、每一次视频分析、每一次代码补全、每一次企业知识库检索，以及每一次 Agent 调用工具、读取数据、执行任务的过程中。尤其是 Agent 的出现，正在把 AI 从「一次问答」变成「连续工作流」：一个看似简单的任务，背后可能包含多轮规划、检索、调用 API、生成结果、校验反馈和再次执行。

这意味着，AI 调用不再只是用户点击按钮后的单次请求，而会变成持续发生、链式触发、对延迟和成本都更敏感的推理负载。也正因为如此，AI 的下一阶段竞争，很可能不只是模型参数和训练算力的竞争，而是推理基础设施的竞争。

Akamai 云计算服务首席技术官 Jay Jenkins 近期表示，真正的 AI 价值越来越多地发生在推理端，发生在离用户、设备和数据产生地最近的地方。

在与 NVIDIA 的合作中，Akamai 正围绕 NVIDIA AI Grid 架构推进边缘推理能力：训练完成的模型仍然可以来自中心化 AI 工厂，但推理任务可以被分发到更靠近用户、企业应用和数据源的位置执行。换句话说，AI 工厂解决的是「模型如何被生产出来」，而边缘推理网络解决的是「模型如何被持续、低延迟、低成本地使用起来」。

这个合作，也与Akamai 过去 27 年积累的边缘网络能力正好形成呼应。

作为一家长期服务于内容分发、安全和边缘网络的公司，Akamai 在全球拥有超过 4,400 个边缘节点，覆盖 130 多个国家和约 700 个城市。过去，这张网络主要用来加速网页、视频、应用和安全服务；现在，Akamai 试图把它变成 AI 时代的分布式推理网络。

为什么这个问题会在 2026 年变得更重要？

第一个原因，是 Agent 改变了推理调用的密度。

在 ChatGPT 式应用里，用户通常是发起一次请求，等待一次回答。但在 Agent 场景中，一个任务往往会被拆成多个步骤。它可能先理解意图，再检索企业内部数据，调用外部工具，生成中间结果，然后根据反馈继续修正。用户看到的是一个结果，系统背后跑的却是一串推理请求。

这会带来两个直接变化：一是调用次数上升，二是链路更长。任何一个环节的延迟，都会叠加到最终体验里；任何一次不必要的数据传输，也都会进入成本账本。对于客服、办公自动化、营销生成、软件开发、内容审核、供应链调度这类场景，Agent 如果要从 demo 走向生产，推理基础设施必须同时解决速度、稳定性和成本问题。

第二个原因，是延迟开始影响 AI 应用能不能成立。

在传统云计算时代，很多应用可以接受把数据送到远端数据中心，再把结果传回来。多几十毫秒，用户未必强烈感知。但在实时视频理解、在线交互、企业工作流自动化、工业现场分析等场景里，延迟就不再只是体验问题，而会变成效率问题、可靠性问题，甚至是部署可行性问题。

边缘推理的核心价值，就是让计算更靠近数据产生地。推理越靠近用户和业务现场，网络往返越短，抖动越容易控制，应用响应也越稳定。对 Agent 来说，这一点尤其关键：它不是一次调用，而是多次调用组成的链条；链条越长，基础设施的延迟差异就越容易被放大。

第三个原因，是成本正在决定 AI 项目能不能真正落地。

过去一年，很多企业已经意识到，AI 项目真正难的并不只是把 demo 做出来，而是把它长期跑在业务里。推理不是一次性投入，而是随着用户规模、调用频率和 Agent 工作流复杂度持续增长的成本。模型调用、GPU 占用、数据传输、出口流量、跨区域访问，都会进入企业的 ROI 账本。

这也是 Akamai 反复强调边缘推理成本优势的原因。根据 Akamai 官方披露，其 Cloud Inference 在特定测试中，相较传统 hyperscale 基础设施可实现更高吞吐、更低延迟和最高 86% 的成本降低。这个数据需要放在具体测试条件下理解，但它指向了一个明确趋势：当推理调用量上升，基础设施效率会直接影响 AI 应用的商业化边界。

第四个原因，是数据主权和合规压力正在上升。

当 AI 应用进入金融、医疗、制造、政府、能源等行业之后，数据不能随意跨境、不能随意离开本地网络，已经成为越来越明确的要求。尤其在亚太市场，印度、印尼、中国等国家和地区对数据本地化、安全合规和隐私保护都有更强要求。

边缘推理的价值在这里不只是「更快」，而是「更可部署」。如果数据可以在本地或更接近本地的位置完成处理，只把必要结果返回业务系统，企业在合规、隐私和安全上的压力都会下降。这也是为什么边缘 AI 不只是一种性能优化，而是一种基础设施形态变化。

从这个角度看，COMPUTEX 2026 上围绕边缘 AI 的讨论并不孤立。无论是边缘设备上的多模态推理，还是工业级边缘 AI 平台对算力、网络和安全能力的强调，都指向同一个趋势：AI 正在从模型展示走向真实业务，从单点能力走向持续运行的系统。

大模型训练仍然需要超大规模 GPU 集群、海量数据和高度集中的工程能力。但训练和推理的基础设施逻辑正在分化：训练追求规模、密度和效率；推理追求距离、实时性、成本和覆盖。

Jay Jenkins 的判断，实际上是在重新定义 Akamai 在 AI 时代的位置：它不是从 GPU 集群出发向外看，而是从用户、应用和数据产生的地方向内看。这个视角，正是边缘网络公司区别于传统云厂商的地方。

这也是今年 COMPUTEX 2026「AI Going Physical」真正传递出的信号：当 AI 从训练走向使用、从单次问答走向 Agent 工作流，推理也必须从中心化数据中心，走向更靠近用户、应用和数据的边缘。

最新文章