
随着生成式 AI、预测式 AI 的浪潮一波高过一波,工作负载的类型越来越丰富、复杂度越来越高,对于 AI 服务器性能、能效的需求也是水涨船高。
随着生成式 AI、预测式 AI 的浪潮一波高过一波,工作负载的类型越来越丰富、复杂度越来越高,对于 AI 服务器性能、能效的需求也是水涨船高。
每每说到 AI 服务器、AI 工作站、AI 一体机等装备,很多人的第一反应就是高算力的 AI GPU 加速器。
它确实是整个 AI 系统的主角,承担着最繁重的使命,但是别忘了,只有 GPU 加速器是无法独自支撑整个系统的,而任何计算系统都离不开 CPU 处理器的坐镇。
CPU 处理器作为任何计算系统的中枢和大脑,在 AI 系统中也起着不可替代的作用,只是一贯比较低调罢了。
如果说 GPU 加速器是 AI 系统中在台前炫技的耀眼明星,CPU 处理器就是隐藏幕后、默默风险的大管家,协调着整个系统的高效运行,尤其是保障 GPU 加速器的各项需求可以得到全面满足,强大的算力可以高效释放。
因此,这个时候的 CPU 处理器,我们一般称之为「主控 CPU」。
采用最合适、匹配的主控 CPU 搭档 AI 加速器,组成高效的 AI 加速系统,可以在工作负载性能、总体拥有成本 (TCO) 之间,达到理想的平衡。
在 AI 加速系统中,主控 CPU 负责通过提供高效的任务管理,以及出色的预处理性能,来优化处理性能和资源利用率,这对于确保 AI 模型训练流程中的数据高效供给、维持 AI 处理器的理想运行状态,都是至关重要的。
主控 CPU 作为 AI 加速系统的「中枢神经」,可以执行管理、优化、预处理、处理、卸载等各种任务,从而提高系统性能和能效。
Intel 的至强系列处理器,尤其是最新一代至强经系列,无论是根据各种 AI 基准测试,还是根据全球客户的实际部署经验,都可以说是强大、高效 AI 加速系统的主控 CPU 的理想之选。
NVIDIA 最新、最强的 DGX B300 系统,就选择了 Intel 新款至强 6776P来作为主控 CPU,而去年的 MGX 系统曾使用至强 6767P 等——Intel 也是 NVIDIA B300 唯一的主控 CPU 合作伙伴。
至强 6 为何如此之强?
我们可以从六个不同方向,逐一看看 AI 加速系统对主控 CPU 的需求,以及至强 6 系列是如何满足的。
1、AI 加速系统需要非常强大、灵活的 IO 性能。
至强 6 系列可以支持多达96 条 PCIe 5.0 通道,比上代增加了 20%,双路系统就是 192 条,因此带宽超高、数量管够,可以灵活分配给不同的加速器、扩展卡。
2、AI 加速系统需要尽可能高的单线程性能。
至强 6 系列不但拥有最多 128 个性能核心、504MB 海量三级缓存,还具备强大的单线程性能,并支持不同的睿频加速技术。
比如PCT(优先核心睿频),可以把少部分核心加速到更高的频率来服务相应的 GPU,最多支持 8 个核心。
比如 SST,可以针对不同的核心配置分配不同的频率,使其拥有不同的性能。
3、AI 加速系统需要尽可能高的内存容量与带宽。
至强 6 系列不但支持更高频率的 DDR5-6400,还独家率先支持 MRDIMM 内存,频率可高达 8800MHz,带宽进一步提升 30%,对比上代领先 2.3 倍,对于内存敏感性 AI 负载尤其有利。
再加上多达 12 个内存通道,至强 6 系列可提供无与伦比的内存带宽与容量,单路系统最高支持 3TB。
NVIDIA DGX B300 系统,就选择了每通道两条 DIMM(2DPC)、5200MHz 频率的方案,主要是为了在带宽和容量以及成本上做到了业界领先的平衡。
另外,至强 6 系列还支持 CXL,可保持 CPU 内存空间与 AI 加速器内存之间的一致性,实现高性能资源共享,降低整体系统成本。
4、AI 加速系统需要 CPU 做好数据预处理和卸载。
至强 6 系列支持AMX(高级矩阵扩展) 指令,新增支持 FP16 数据格式,非常适合这项工作,尤其是随着 MoE、Sparse MLP 模型的出现和流行,在 CPU 上卸载部分工作越来越流行。
5、AI 加速系统需要强大的 RAS。
RAS 指的是可靠性、可用性、可维护性,对于工作站、服务器、数据中心硬件是必不可少的属性,至强 6 当然也少不了,有了它就可以大大减少大规模停机时间,避免高额损失。
RAS 技术支持多项高级管理功能,包括遥测、平台监控、共享资源控制、实时固件更新等,汇聚了平台合作伙伴、ISV 独立软件开发商、解决方案集成商的丰富专业知识与经验。
6、AI 加速系统需要灵活的形态。
至强 6 系列支持 DC-MHS 全球标准,无论是 NVIDIA MGX 还是 DGX,双方都有合作,最新的就是 DGX B300,由双方共同打造,开展了大量的技术验证工作。
至强 6 系列家族中,有三款特殊型号是专门用于主控 CPU 的。它们均基于 P 核即性能核的设计。
其中,NVIDIA DGX B300 采用的是至强 6776P,并且是双路配置。
至强 6776P 配置了 64 个核心 (128 线程),基准频率 2.3GHz,全核睿频 3.6GHz,最大睿频 3.9GHz,PCT睿频可以在最多 8 个核心上跑到 4.6GHz,比传统 SKU 再次提高了多达 700MHz。
另外,它配备 336MB 缓存,支持八通道 DDR5-6400、MRDIMM-8000 内存,可提供 88 条 PCIe 5.0 通道,热设计功耗 350W。
这里解释一下几种不同的睿频频率:
全核睿频即All Core Turbo,是指所有核心处于活跃状态时,所能运行的最高频率,适合作为虚拟机等场景,此时需要每一个核心跑在尽可能高的性能上。
最大睿频即Max Turbo,是在传统 SKU 中能够达到最高的睿频,它假设一半核心活跃、另一半核心休眠,活跃核心就能够运行在更高的频率,也就是 Max Turbo 对应的频率。
优先核心睿频即Priority Core Tubo,是指只开启更少量的核心,一般 2-8 个,让它们进一步加速到更高的频率,从而以更高的性能,满足 AI 加速系统中 GPU、I/O 等的苛刻需求,避免出现系统瓶颈。
至于使用哪些核心进行加速,可以在启动前使用 BIOS 设定,也可以在运行中通过 SST-TF 工具实时设定。
单路的至强 6774P也是 64 核心,除了基准频率提高到 2.5GHz,与至强 6776P 最大的不同就是仅支持单路但可提供多达 136 个 IO 通道,扩展性能更加强悍。
至强 6 AP 平台的 6962P拥有 72 核心 144 线程、432MB 缓存,基准频率就有 2.7GHz,全核睿频也是 3.6GHz,最大睿频也是 3.9GHz,PCT 睿频则是 4.4GHz。
它还支持 12 通道内存,可提供 96 个 PCIe 通道,热设计功耗来到了 500W。
以上三款都是面向所有客户的开放产品,属于产品规划和路线图的一部分。
刚才多次提到在 AI 系统中至强 6 作为主控 CPU 的配置,这就是概述图,属于高端的 DGX,专为 AI 训练等应用而生。
它配备了双路至强 6776P 主控 CPU 处理器,彼此通过 UPI 高速总线互连,每路都是最多 8 个 PCT 睿频核心,客户在使用的时候可以根据需要定制选择 8 个、6 个、4 个或 2 个核心用于 PCT睿频。
每一路至强 6776P 之下,通过两个 NIC 高速网卡,连接四块 AI GPU,整个系统就是八块 AI GPU,彼此通过 NVLink 高速总线互连。
这套系统在选择主控 CPU 时采取了比较平衡的设计,但性能依然是业界领先的,I/O 性能、RAS 性能等等也都很均衡,无疑是个理想的选择。
当然,我们知道,NVIDIA AI 加速系统中已经普遍使用自行研发的 Grace CPU 处理器,来搭配 AI GPU 加速器。
事实上,目前市场上,许多 AI 系统提供商都在使用自研主控 CPU 来配合 AI GPU。
从 Intel 的角度来看,其服务方向是为客户提供更多选择,而且作为开放系统,始终秉持开放态度,为主控 CPU 提供最佳选择,以满足客户的多样化需求。
NVIDIA DGX B300 产品选择了 Intel 至强 6 作为主控 CPU,而且这并非测试或者试验产品,而是一款商业化的成熟产品,无疑是对 Intel 至强产品性能和兼容性的有力认可。
来源:快科技