
在 AI 异构计算架构中,英特尔至强 6 处理器作为主控 CPU 可以与 NVIDIA 最新 GPU 很好地协同。
一、至强6与NVIDIA GPU 协同的硬件基础
在 AI 异构计算架构中,英特尔至强 6 处理器作为主控 CPU 可以与 NVIDIA 最新 GPU 很好地协同。根据英伟达官网信息,目前其 DGX B300 系统选择至强 6776P 作为唯一主控 CPU,采用双路配置,通过 UPI 总线实现 CPU 间互连。这 8 个 GPU 通过 NVLink 高速互连,是性能比较高端的 DGX,为训练等应用而设计。
作为主控 CPU,它和 GPU 协同工作,而这个系统的性能受到诸多因素的影响,这里列出的是最主要的因素,包括 I/O、核心性能、内存(包括带宽和容量)、CPU 上的预处理或卸载(offload)能力、整体 CPU 系统的 RAS,以及各种硬件的外形设计等。这些都会影响整个 AI 系统的端到端性能,因此 AI 系统通常比较复杂。
这一设计的性能提升要点在于:
1.业界领先的I/O通道和内存能力
AP 平台的双路至强 6 最多可以提供 192 条 PCIe 5.0 通道,也就是可以每路提供 96 条通道,相比上一代提升 20%,内存通道也可以高达 12 个。直接匹配多 GPU 的高速接入需求,避免因通道不足导致的带宽瓶颈。
在 SP 平台上,英特尔还提供了一个差异化的产品,就是在单个 CPU 插槽上提供了更丰富的 I/O 资源(Rich I/O one socket),总共有 136 根的 PCIe 通道,持单插槽连接多块加速卡与存储设备,适用于边缘端「预处理+推理」一体化场景。同时,其高带宽内存可容纳更大模型参数,提升训练效率。在推理场景中,灵活的核心配置确保资源高效利用,满足多样化需求。
2.核心性能优化
至强 6 区别于上一代产品的关键技术突破是 Priority Core Turbo(PCT),其技术本质是通过 Speed Select(SST)将单路 CPU 核心划分为两组:最多 8 个高频核心(PCT 核心)与剩余低频核心。在 DGX B300 场景中,这一技术直接服务于「CPU 驱动 GPU」的典型需求,实现高频核心的精准调度:当 GPU 需要快速获取预处理数据(如从内存读取原始数据并完成清洗、特征工程)时,8 个 PCT 核心可睿频至 4.6GHz(传统 64 核 SKU 最大睿频为 3.9GHz),相比全核睿频(3.6GHz)提升 28%。这一特性缩短了数据从 CPU 到 GPU 的传输延迟。
3.资源分配的灵活性
PCT 核心数量可通过 BIOS 或 SST-TF 工具动态配置,客户可根据实际负载调整——客户在使用时可以根据需要选择 8 个、6 个、4 个或 2 个 PCT 核心。例如推理场景中若仅需 4 块 GPU 工作,可配置 4 个 PCT 核心对应驱动,避免资源浪费。与上一代 Max Turbo 技术的差异在于:PCT 允许全核在线(无需半数核心休眠),且维持相同 TDP(350W)与散热设计,确保硬件兼容性,降低客户部署成本。
4.更强的内存架构兼容性
更高的内存带宽对于 AI 工作负载至关重要,因为 AI 的工作流程是一个完整的数据处理管道,而非单一环节。在这一过程中,CPU 首先负责预处理,从内存中读取数据并进行初步处理,随后将数据传输至 GPU。比如,至强 6 支持 8 通道到 12 通道的 DDR5-6400 内存,还支持 MRDIMMs,能提供更高的 30% 带宽。
在 LLM 的生成式推理(如文本续写)中,自注意力机制需为每个已处理的 Token 生成并存储键(Key)和值(Value)矩阵,即 KV Cache。KV Cache 避免了在解码阶段重复计算历史 Token 的注意力状态,但会随序列长度线性增长,占用大量 GPU 显存,需要卸载到下一级存储中。对于 CXL 内存来说,有一个典型用例是 KV Cache 的卸载,通过用 CXL 内存去替代 SSD,这样 KV Cache 的访问速度显著增快,从而提升了性能。
5.RAS和数据预处理
在企业级 AI 训练场景中,系统可靠性直接影响算力利用率与 TCO。至强 6 的 RAS 体系覆盖全硬件链路,可以通过 RAS 特性来可以提高 I/O 的稳定性、内存系统稳定性、UPI 链路稳定性、CPU 及平台稳定性。CPU 卸载则是针对 MoE(混合专家)模型的另一种优化方式。目前市场上已有诸多关于通过 AMX 矩阵技术将部分 MoE 模型中的专家层卸载至至强处理器的案例。
二、为何是至强6776P?
NVIDIA DGX B300 选择的双路至强 6776P 的核心价值在于业界领先的 I/O 能力、领先的内存带宽、大内存容量、领先的 RAS 能力已经为特定 AI 负载优化的 PCT 产品。
其 4.6GHz 的睿频能力显著加速数据处理,PCT 核心以 4.6GHz 频率加速数据预处理(如文本分词、图像解码),通过高速 PCIe 通道将数据传输至 GPU,形成「CPU 预处理→GPU 计算」的流水线作业。这款处理器拥有单路 88 条 PCIe 通道,双路则达到 176 条。
英伟达选择了 2 DPC 架构(每颗 CPU 提供 8 通道内存,每通道 2 个 DIMM)进行配置,双路系统可搭载 32 根 DIMM,内存最大容量达 8TB。
综述:开放生态的实际意义
至强 6 的核心优势在于开放性与兼容性。客户硬件选择自由,可以根据成本动态切换,避免被单一供应商锁定。在软件生态兼容层面,至强 6 也完全支持主流 AI 框架(如 TensorFlow、PyTorch)与云原生技术,无需重新开发适配层,降低技术迁移成本。
从英伟达的选择逻辑看,DGX B300 采用至强 6 应该并非单一性能导向,而是综合考量了生态开放性、成本可控性与技术成熟度——至强 6 作为量产级产品,其稳定性与供应链可靠性已通过大规模数据中心验证。
至强 6 在搭配 NVIDIA GPU 场景中的价值,本质上源于其对「CPU 角色」的清晰定位:核心数量或睿频频率,都是围绕 GPU 协同需求而定,根据用户的不同需求,也可以选择不同的 CPU 型号。在关键路径(如高频数据传输、大内存容量、系统稳定性)上,至强 6 可以实现精准优化。对于企业客户而言,这意味着在 AI 基础设施建设中,可通过标准化硬件获取可预期的性能提升,同时避免为冗余功能支付额外成本。这种「需求导向型」 技术路线,或许正是其成为英伟达首选主控 CPU 的核心原因。
来源:微型计算机