液冷新时代智算大有为浩云长盛液冷数据中心最佳实践

浩云长盛广州二号云计算基地，是华南区首家大型商用液冷数据中心，采用冷板式液冷技术，助力 AI 算力业务降本增效：提升算力性能 10%，降低 GPU 芯片维护成本 50%，节省 IB 线缆投资 30%。

低碳与数字双驱动，未来 GPU 资源持续火热

数据中心是国家信息化战略的重要基础设施底座，发展的好坏快慢直接影响战略落地。政策、经济、社会、技术都在为数据中心行业高质量发展提供新动能。《「十四五」规划》明确指出，到 2025 年，数字经济核心产业增加值占 GDP 比重达到 10%，同时到 2025 年单位 GDP 能耗下降 13.5%，从发展规划中一叶知秋，中国数字经济既要快速发展，更要高质量发展。

2023 年 3 月，Open AI 的 ChatGPT 4.0 大模型发布，将人工智能的应用推向了新的高度，该模型在许多专业测试中的表现「超出了人类水平」，「比以往任何时候都更具创造性和协作性」，「可以更准确地解决难题」，ChatGPT 单月访问量突破 10 亿次。与此同时，各个行业都在积极探索人工智能与行业结合之路，如微软将 ChatGPT 接入 Office 365，工作效率成倍增加。

这一股 AI 浪潮也冲击了算力基础设施底座。人工智能深度神经网络算法（DNL）需要处理大量且并行的卷积运算，而 GPU 显卡则能很好地匹配这种特性。基于业务侧的带动，加上 A100 的禁售，用于大模型训练的 GPU 一卡难求，价格变化更是按天衡量，8 卡 H100 服务器从 60 万到 150 万只用了 3 个月的时间。未来，GPU 短缺的趋势可能会维持，OpenAI 的 ChatGPT GPT 4.0 在大约 10000-25000 张 A100 上进行了训练，而 GPT 5.0 将可能需要 30000-50000 个 H100。

低碳高密风退液进

这一系列宏观环境的变化，对数据中心行业发展方向产生了诸多影响，风冷末端到底能不能适应这一变化？在我们看来，风冷不能很好匹配业务需求的变化。

首先，风冷不能很好应对 PUE 挑战，目前各省对数据中心 PUE 已经有明确的指导，以广东省为例，广东省工业和信息化厅印发了广东省 5G 基站和数据中心（IDC）总体布局规划（2021-2025）的通知，新建数据中心 PUE 不高于 1.3，这对于广东地区来说，是非常具备挑战性要求。

其次，风冷的散热效率和制冷精度不够高。GPU 芯片的功耗一定是趋向高密的，英伟达 GPU A100/H100 单卡功率接近 400W，芯片热流密度 50W/平方厘米，4U 整机服务器功率接近 5.5kW/台，英伟达主推的下一代算力卡，A800/H800 算力是上一代的 3 倍，价格只有原来的 2 倍，功耗接近 2 倍，单卡功率接近 700W，热流密度 87.5W/平方厘米，4U 整机接近 9kW，算力硬件功率越来越高，芯片热流密度越来越大，传统风冷难匹配：

1. 风冷制冷效率低，不适合高功率机柜。风冷密闭通道支持的合理功率区间 4~6kW，但单个 4U 的 H800 整机已经接近 9kW，此时风冷制冷对于如此高密设备的散热有点力不从心，少量服务器场景下，能采用隔机柜部署方式应急，这种非集约化部署模式在规模化的算力场景下，散热效果并不佳，个别客户会把 GPU 服务器外壳打开，增加散热面积。这种部署方式没有经过专业的 CFD 仿真验证，既不安全，又会造成机柜资源浪费。

2. 风冷制冷对于热源（GPU）的制冷不够精准。纯气流组织散热支持的芯片热流密度极限约 10W/平方厘米，达不到 H800 对散热效率的要求。芯片长期工作在高温状态，会导致性能降低，英伟达同样性能服务器，液冷版本和风冷版本性能差距在 10%；同时，根据「十度法则」，从室温起，电子元器件每增加十度，失效率增加一倍，寿命也会降低，GPU 备件失效率增加，继而导致整个生命周下期算力成本增加。

实践中常常会有通道温度低，但是芯片温度高的情况发生，长时间高温运行，GPU 的寿命短和性能低，导致经济成本和时间成本都增加，由此可见在算力场景，风冷并不是最合适的。液冷是通过高比热容的冷液直接带走热量，这种高效的散热方式逐渐进入大家的视野。

液冷解决方案，是 GPU 算力的最优解

浩云长盛广州二号云计算基地，位于广东省广州市番禺区，大湾区的中心和智能汽车产业中心（双中心），本项目按照国标 CQC A 级标准设计，定位为智能制造 AI 算力基地，是华南区首家大规模商用液冷数据中心，支持功率密度 8~19KW 以上，单系统 PUE 1.1 以下，为华南区智能制造、AI 超算高质量发展提供可靠数字基础设施底座。

冷板式液冷基本原理

液冷基本原理是采用液体作为传热工质在冷板内部流道流动，通过热传递对热源实现冷却的非接触液体冷却技术。在冷板式液冷系统中，需要专用的液冷服务器，服务器芯片等发热器件不直接接触液体，而是通过装配在需要冷却的电子元器件上的冷板进行散热，达到精确制冷的目的，让 GPU 运行温度更低。

二次侧采用 25% 乙二醇加去离子水的混合液，保障换热高效的同时兼顾安全稳定。进水温度 35-45℃范围之间，出水温度在 45-55℃左右，进出水温高，系统通过自然冷却为芯片降温，降低系统 PUE。一次侧和二次侧通过板换实现热交换，二次侧的水泵将热量从板换中带出到冷却塔散掉。

整个系统来看，跟传统的制冷方式是有区别的：

1. 换热次数少，传统冷机系统 5 次换热，冷板液冷 3 次，更少的冷量损耗；

2. 精准散热，冷板式液冷能够针对 GPU 芯片单点降温，且冷液的比热容是空气的 4 倍，换热效率更高，对 GPU 更友好；

3. 无压缩机，风扇等部件，系统 PUE 更低，设备噪音更小。

冷板式液冷对比传统气流交换方式，在综合性能上有质的飞跃，更贴合算力业务的特点，液冷系统单柜功率密度支持 19kW 以上，能提高散热效率，降低 GPU 工作温度达 20℃以上。

当然，浩云长盛认为目前最佳的方案，应该是风液结合的方案，通道散热风液结合，液冷协助 GPU 散热，风冷作为辅助散热，带走其余部件的热量；液冷机柜和风冷机柜混合部署，客户的普通机柜和算力机柜能够就近协作，提升配合效率，且方便维护。

液冷是算力业务的刚需

过去，对于最终用户来说，用什么样的制冷方式并不重要，风冷，水冷，间接蒸发，只要能达到功率需求都可以接受，但是在算力时代，思维方式可能要做一些改变了，因为算力资产越来越难获取，也越来越昂贵，而制冷方式的匹配与否，直接影响到业务上线速度和投资成本。

第一，相对风冷制冷环境，液冷能够提升 GPU 性能 10%。根据设定，GPU 长期高温运行性能会降低，液冷能提供高效的热散能力，提升 GPU 使用性能，根据 OPPO 算力团队在 IDCC 论坛上表示，通过验证，同样的算力配置，服务器在液冷方式下运行比风冷效率提升约 10%，意味着同样的算力，液冷的学习周期比风冷短 10%，业务能更早抢占市场。

第二，液冷能够降低 IB 线缆部署成本 30% 以上。单台 H800 服务器 4U 即达 9kW，采用传统的风冷制冷，单柜仅能放置 1 台，且需隔机柜部署，如果采用冷板式液冷方式，单柜可直接布置 2 台 H800 服务器，无需隔机柜部署。以单排微模块 15 个机柜为例，7 台 H800 服务器需要 14 个机柜位, 线缆总长度 49A（A 为相邻两个机柜间的平均线缆连接距离），如果每柜可以放 2 台，则只需要 4 个机柜位置（如下图），线缆总长度 16A，IB 线缆长度节省超 50% 以上，而 IB 线缆每根价格在万元级别，长度越长价格越贵。考虑到价格与长度的关系非线性，且与场景有关，项目节省线缆金额在 30% 以上。

风冷部署与液冷部署线缆使用长度对比

我们相信，传输距离变短也会有利于算力模块之间的数据共享速率提升。有客户明确要求，服务器到 IB 交换机柜的走线距离小于 30 米。

第三，液冷能够降低 GPU 维护成本 50%，提升投资收益。液冷冷板针对 GPU 精准、高效的散热，降低 GPU 使用温度可达 20℃，根据「十度法则」，GPU 故障率减少至少 50%（在风冷故障率基础之上），继而减少 GPU 备件购买量，未来 GPU 市场的不确定性，也会导致 GPU 的采购难度会加大，采购成本增加，因此维持较低的 GPU 故障率能够节省投资成本和时间成本，更不会因为 GPU 卡紧缺，而影响业务连续性。

综上，对于最终客户来说，随着未来技术的迭代，GPU 功耗增加，液冷已经不再是改善需求，而是智能算力的刚需。

来源：互联网

最新文章