
9 月 19 日,华为全联接大会 2025(HC 2025)上,华为常务董事、华为云计算 CEO 张平安介绍了华为云昇腾 AI 云服务的重磅升级与创新进展。
9 月 19 日,华为全联接大会 2025(HC 2025)上,华为常务董事、华为云计算 CEO 张平安介绍了华为云昇腾 AI 云服务的重磅升级与创新进展。
依托华为刚刚发布的最新 AI 服务器规划,CloudMatrix 云上超节点规格将从 384 卡升级到未来的 8192 卡,实现 50~100 万卡的超大集群,为智能时代提供更澎湃的 AI 算力。为充分释放算力潜能,华为云还首创了弹性内存存储服务 EMS,打破传统 AI 算力与显存绑定限制,让内存可以替代昂贵的显存,以存补算,提升大模型多轮对话的性能。
当下 AI 算力需求正以指数级增长,面对不同客户需求,华为云提供了灵活的使用方式。
张平安指出,AI 的 Token 服务可以有效屏蔽复杂的底层技术实现,是最高效的推理算力使用方式。会上,张平安宣布华为云 CloudMatrix384 AI Token 服务全面上线,将以优的性能、好的服务、高的质量,高效满足各行各业所需的「最终 AI 计算结果」。

华为常务董事、华为云计算 CEO 张平安
华为云通过 CloudMatrix384 超节点的创新架构,将资源全面池化,形成算力池、内存池、显存池等,把计算型任务、存储型任务、AI 专家系统解耦开来,将串行任务尽可能地变成分布式并行任务,极大地提升系统推理性能。在在线、近线和离线等不同时延要求推理场景中,CloudMatrix384 的平均单卡推理性能是中国特供 H20 的 3~4 倍。目前、已经为 Pangu,DeepSeek,Qwen 等业界主流大模型提供极致的 Token 服务,加速各行业 AI 技术落地与业务创新。
360 纳米 AI 依托 CloudMatrix384 的 Token 推理服务,成功处理每天上千万的内容生成请求。中科院构建的「磐石·科学基础大模型」平台,基于 CloudMatrix384 超节点内部高速互联架构及融合算子优化,模型训练精度更高,超出 GPU 4%,支持 100+专业院所领域场景,不断拓展人类认知的前沿。
随着 AI 算力需求的暴增,企业对基础设施散热、功耗、运维等也提出更高的要求。华为云在贵州、内蒙古、安徽部署大规模、领先的全液冷 AI 数据中心,将液冷年均 PUE 降低至 1.1。通过华为云的 AI 云服务,企业无需花时间改造或新建传统数据中心,只需一对光纤,就能够获取华为云上高效的 AI 算力。华为云提供了全栈专属 AI 云服务,企业可以把模型和数据放到华为云专属物理隔离资源池进行训练和调优,全程端到端加密,同时自主掌握密钥,在保障数据安全的同时,高效享用华为云提供的 AI 基础设施。
华为云昇腾 AI 云服务的升级,不仅为客户带来了极致性能的 Tokens 服务,更通过技术创新与多样化部署模式,为千行万业的智能化升级注入了强大动力,推动 AI 技术在各领域的深度应用与发展。如今,昇腾 AI 云服务的客户数量从去年的 321 家已增长到今年的 1805 家,华为云 AI 总算力规模相比去年同期增长了 268%。
来源:互联网



