算力进化的前线,中国 AI Infra 走到哪了?

摘要

2025年的AI产业,正在从「炫技期」步入「基础设施期」。

近日,第 21 届 CCF 全国高性能计算学术大会与 2025 世界算力博览会(WEC 2025)在内蒙古鄂尔多斯开幕。作为全球三大超算盛会之一,本届大会不仅汇聚了来自中科院、清华、北大、国防科大等高校和科研机构的专家学者,也吸引了阿里云、华为、中科曙光、并行科技等产业代表,共同探讨算力演进的方向与挑战。

开幕式上,中国工程物理研究院莫则尧研究员指出,高性能计算正迈入「智算融合深水区」,所面临的不仅是性能挑战,更是体系性短板——软件生态不足、区域发展失衡、算力孤岛严重。他提出的「全国一盘棋」思路,恰恰揭示了当前 AI Infra 演进的底层逻辑:不再依赖单点突破,而是强调软硬件协同、标准统一与系统融合。

从模型爆发到基础设施焦虑,这一转变并不突兀。以 DeepSeek 为代表的国产大模型,在推理能力上取得快速突破,标志着 AI 应用正从「语言层」迈向「认知层」。与此同时,AI 对底层资源的需求也发生转变:从「能提供多少算力」,变为「能否构建一个稳定、高效、低成本的算力系统」。训练得起、部署得下、运行得稳,正成为 AI Infra 的三重挑战。

本届大会传递出的一个核心信号是:国产 AI 基础设施的系统能力正在快速补齐。从算力芯片、整机系统、网络架构,到调度平台、标准协议、软件栈支持,不同企业与机构正逐步弥合此前 AI 系统化能力的多个短板。

高通量以太网联盟的发布就是一个代表性节点。由阿里云与中科院共同牵头,该联盟在大会期间展示了 400G 网卡和 25.6G 交换芯片等关键硬件成果,同时发布了基于国产「追光」芯片的光互联系统,以及面向 ERACK 集群场景设计的 UPN(超性能网络)架构。这些设施瞄准 AI 大模型训练过程中的集群通信瓶颈,提升网络吞吐和系统可扩展性,是当前构建智算中心的核心能力之一。

软件与架构方面的演进同样显著。中科曙光推出的新一代算力平台 Nebula 800,是国内首批符合《超智融合集群能力要求》标准的系统产品。该平台具备多元异构算力整合能力、融合调度优化能力,并实现了存算网一体化协同、液冷散热、AI 原生应用适配等关键系统特性。这意味着,AI 模型不再是「能不能运行」的问题,而是「如何在最优资源结构中运行得更好」的工程议题。

AI 模型的发展不仅带来了算力需求的膨胀,也催生了基础设施设计逻辑的根本改变。过去,AI Infra 往往围绕「峰值性能」构建;而如今,训练与推理的效率、系统的能效与稳定性、数据调度与模型弹性,都成为设计中必须考虑的因素。平台能力不再由单一指标决定,而是取决于其对全流程智能工作的整体承载能力。

论坛报告中,多位专家指出异构架构将成为 AI 基础设施演进的关键路径。例如,GPU 与 AI 专用加速芯片的协同、CPU 与 FPGA/NPU 的混合部署、存算一体化设计、内存与网络协同架构,均被视作 AI 基础设施下一阶段的关键方向。中山大学卢宇彤教授强调,未来的超算系统必须同时满足「极致性能」「极致能效」与「极致可扩展性」,这不仅是硬件能力的突破,更是对系统架构、能耗控制与资源调度的综合考验。

基础设施的智能化趋势也在科研计算场景中加速落地。孙凝晖院士指出,科学智能(AI for Science)对算力系统提出了远高于通用 AI 应用的复杂性需求,包括更高精度、更大吞吐、更高适配性与更稳调度。这使得 AI Infra 不仅要「能跑」,更要「会跑」——具备自感知、自优化、任务驱动型的智能运行特性。

这一趋势也反映在工具链的演进中。徐小文研究员提出的「特征修正+智能解法器」框架,通过识别稀疏线性代数问题中的代数特征,实现解法路径和算子结构的智能调整,从而提升求解效率和收敛性能。这类框架正在从科研系统向工程部署过渡,成为 AI 基础设施智能化的重要组成部分。

许进教授展示的「探针计算机」项目提供了另一条路径。这一专用硬件系统设计于生物计算模型与电子架构之间,用于高效求解 NP 完全问题,具备高度并行和任务适配能力。据介绍,该系统已能在 1 分钟内完成千节点图着色任务,远超传统通用解算器。这类「任务专用型 AI Infra」将成为未来基础设施的重要分支,在工业调度、组合优化等复杂场景中释放优势。

从算力芯片到调度系统,从系统平台到算法工具,从软硬标准到行业规范,本次大会呈现出一种清晰共识:AI Infra 的核心竞争力,不再是算得快、跑得起,而是能否形成全链协同能力。硬件、系统软件、调度器、编排平台、训练框架、推理服务、接口标准,这些要素不再孤立存在,而需共同构成一个动态可调、生态可续、任务可适的底层系统。

未来 AI 的竞争,很大程度上将是一场「系统能力」的比拼。谁能构建更稳定、更灵活、更具成本优势的 AI Infra 系统,谁就能在智能时代的下一轮落地竞赛中占据主动。从本届大会的发布与讨论来看,中国在 AI Infra 体系构建上的追赶已进入「系统竞速」阶段,重心正在从可用性转向成熟度、扩展性与生态组织力。

一场关于基础设施的重构,正在决定下一轮 AI 竞赛的节奏与边界。AI Infra,不再是幕后配角,而是推动智能跃迁的系统主角。

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。