
近年来低碳节能的话题被越来越多的人关注,国家的双碳政策及部分省市的限电行动,都表示对碳排放的高度重视。本文聚焦数据中心网络迭代过程中,数据中心交换机的关键组件遇到了功耗难题,从多种交换机硅光技术出发,结合锐捷网络的实践,我们尝试提出一条数据中心网络可持续发展的技术路线建议
随着互联网技术的发展,数据中心逐步转型为「算力中心」。人工智能、机器学习等高算力应用发展迅猛,无人驾驶汽车、大数据推流、兴趣电商等多样化业务层出不穷。而作为基础架构支撑人工智能、机器学习这类应用的 GPU(Graphics Processing Unit,图形处理器)计算集群,相比于 CPU(central processing unit,中央处理器)通用计算集群对网络传输提出了更高要求,这就是我们常说的「业务驱动网络迭代」的演进模式。在该模式下,网络迭代在 GPU 高性能场景先行,满足塔尖业务需求;再逐步赋能到通用场景,充分发挥技术价值红利。
图 1:数据中心网络架构示意图
除了来自业务的直接压力,数据中心其他设施为了满足功能需求而进行的升级,也在无形中「驱赶」着网络设备的迭代。如搭载下一代 H100 的 GPU 服务器,对网络的接入带宽已上升到 400G 的要求;下一代 CX7 的智能网卡,也要求网络接入交换机支持 PAM4-112G SerDes(串行/解穿串行器)。
在业务和硬件革新的双重驱动下,数据中心网络架构升级势在必行。而要想顺利完成迭代,交换芯片、SerDes 和光模块三个层面的技术需要协同演进,缺一不可。不难想象,这条技术演进之路将会阻碍重重,其中功耗问题尤其难解。
图 2:驱动数据中心网络迭代升级的因素及功耗挑战
先从决定交换机性能的交换机芯片来看,随着交换机芯片的升级,单 Bit(比特)的功耗随之降低,但因为交换带宽提升,交换机芯片总功耗在数据中心的占比逐年增长。除交换芯片外,SerDes 和光模块也是功耗增加的主要元素。据数据统计,2022 年单交换机的总体功耗是 2010 年单交换机功耗的 22 倍,其中交换芯片 SerDes 功耗增长 25 倍,光模块的功耗增长 26 倍。
图 3:2020 Cisco and/or its affiliates. All rights reserved. Cisco Public
聚焦光模块的演进来看,2007 年万兆的光模块功耗小于 1W,但随着 40G、100G 到现在的 400G,800G 甚至未来 1.6T 光模块,功耗提升的比例越来越大,甚至快要接近 30W,如果是满载 1.6T 光模块的交换机,功耗将不可想象。
因此,传统可插拔光模块的技术演进难以支撑数据中心的可持续发展,主要体现在以下四个方面:
图 4:传统可插拔光模块技术发展的瓶颈
首先是 SI(电传输)的实现遇到了材料的瓶颈,基于 PCB(Printed Circuit Board 印制电路板)传输高速电信号,在应用传统可插拔光模块时,信号传输距离长,传输损失大,对 SI 实现挑战大,更低损耗的可量产 PCB 材料也面临诸多技术困难。其次是功耗问题,满载 1.6T 模块的设备,整机功耗巨大,对散热设计包括机柜供电的挑战巨大。随功耗的提升,整机的设备成本包括风火水电的周边配套实施成本也相应增加,会增大网络建设初期的投入。最后是产品设计的问题,使用传统可插拔光模块的系统,支持 128 个端口需要非常复杂的系统设计,还需要解决诸如高功率光模块散热等技术问题,推高了系统成本。
综上,从交换芯片、SerDes 及光模块技术在数据中心网络架构迭代中遇到的功耗问题出发,锐捷网络以建设下一代绿色节能可持续发展的数据中心为目标,基于客户业务场景和产品实践,给出了数据中心网络可持续发展的创新解法及技术路线建议,具体分三层:
底层是架构升级,基于下一代芯片、SerDes 及光模块技术实现网络架构升级迭代去满足人工智能、机器学习等应用对带宽持续增大的需求。在架构升级基础上,从网络设备出发,尝试解决当前 SerDes 及光模块的功耗难题。但问题并不是只在这一代才发生,未来的每一代网络架构都会面临相同的问题,因此需要面向未来,探索出一条数据中心网络低成本、低功耗的可持续发展路线。
图 5:下一代绿色节能可持续发展数据中心的建设目标
具体这条可持续发展的技术路线,可以从交换机硅光技术发展的两个阶段实现。第一阶段是 NPO(Near packaged optics 近封装光学)技术阶段,可以在 CPO(Co-packaged optics,共封装光学)生态完备之前,在最短时间内享受到低成本、低功耗的收益。第二阶段是 CPO 技术阶段,这是交换机硅光技术的最终形态,可以极限降低网络的成本和功耗。
图 6:数据中心网络可持续发展技术路线建议
光引擎承载了交换网络的光电转换功能,最常见的是 Pluggable(可插拔)形态,随着技术的演进,又产生了新的产品形态。CPO 形态是将交换芯片和光引擎共同装配在同一个 Socketed(插槽)上,形成芯片和模组的共封装。NPO 形态则是光引擎与交换芯片解耦,装配在同一块系统主版上。虽然两者都有光电模组,但封装的位置是不同的,对应的走线距离也会有些差异,相应功耗也不同。
图 7:硅光技术形态概览
CPO 架构是基于硅光技术实现最高集成度的形态,预期也能获得最优的成本及功耗收益。CPO 架构降功耗的核心原理是通过共封装形式大幅缩短交换芯片和光引擎间的布线距离(走线可控制在 50~70mm 左右),进而降低 SerDes 的驱动功耗成本,同时可实现更高密度的高速端口,提升整机的带宽密度,实现大幅降低功耗。长远来看,因为芯片和硅光组件的共封装的更高集成及硅光技术生态的不完备,从商业化角度上来看开放性是长期的目标。
图 8:CPO 架构示意图
图 9:CPO 降功耗原理图
交换机的另一种实现架构是 NPO,基于硅光技术的高集成度和开放的生态,可以获得成本及功耗的最快收益。NPO 的技术原理是通过开放的光引擎接口,与交换芯片共同组装在同一块主板,以标准化架构的方式实现了光引擎和芯片的解耦,可以灵活对交换芯片和 NPO 模块进行选型。NPO 在收益方面虽然不如 CPO 架构对功耗和成本降低的明显,但在开放性层面是有所提升的。随着 NPO 产业链的日益成熟,预计到 24 年会有商用的 CPO 模组。锐捷网络作为 OIF(光互联网 OIF 论坛)成员之一,也在 NPO 交换机方向持续进行探索与实践。
图 10:NPO 架构示意图
2021 年 11 月,锐捷网络应邀参加全球 OCP 峰会。在峰会现场,锐捷网络正式发布了 25.6T 硅光 NPO 冷板式液冷交换机,满足数据中心和运营商网络的高可靠性的要求。
图 11:锐捷网络 25.6T 硅光 NPO 冷板式液冷交换机
锐捷网络 25.6T 硅光 NPO 冷板式液冷交换机,基于最新的 112G Serdes 交换芯片,采用 64 个连接器,在 1RU 的空间内,实现了 64 口 400G 的超高密度端口设计;由 16 个 1.6T(4×400G DR4)的 NPO 模块组成,支持 8 个 ELS/RLS(外置激光源模块),PCB 上 ASIC 到光模块布线距离缩短 60%-70%,高速信号质量大幅改善。整机采用 x86 CPU,3+1 的风扇模块,1+1 电源模块冗余,核心区域采用冷板散热,使用非导电冷却液,彻底杜绝漏液短路风险,能很好为数据中心网络可持续发展提供支撑。
图 12:锐捷网络网络 25.6T 硅光 NPO 冷板式液冷交换机
2022 年,锐捷网络在 OFC2022 最新发布的 51.2T 硅光 NPO 冷板式液冷交换机,是基于 51.2T 交换机芯片的 800G NPO 结构原型机。同样是 1RU 的高度,51.2T 交换机将 NPO 模组从 1.6T 升级到了 3.2T,前面板支持 64 个 800G 连接器,每个连接器还可以分成 2 个 400G 端口,实现向前兼容。外置光源模块增加到了 16 个,由于采用了 Blind-mate 设计,避免了高功率激光对人眼的伤害,显著改善了运维人员的安全。散热方面,交换机芯片和 NPO 模块同样支持冷板冷却方式,实现高效散热,解决热流密度高度集中的难题,对比同性能、传统可插拔光模块+风冷方案的交换机,功耗大幅降低。
图 13:锐捷网络 51.2T 硅光 NPO 冷板式液冷交换机
NPO 交换机的应用场景非常广泛,锐捷网络研发的 51.2T 的 NPO 交换机可以应用于下一代超大规模 400G 网络,作为 Leaf&Spine 设备实现高速骨干互联,我们最快在 2023 年底可以实现商业化发布,帮助客户在最快时间内享受功耗和成本降低的价值红利。
图 14:基于 NPO 交换机的下一代网络架构设计
锐捷网络现在已经走向国际,作为 OIF/COBO 的成员,会定期参与硅光相关工作组全球会议,力图为全球的技术进步贡献一份力量。未来,锐捷网络会在硅光方向上继续践行这条可持续发展之路,研发出更多产品帮助客户实现绿色节能。
图 15:OIF 工作组全球会议现场
来源:搜狐网