
9 月 13 日至 14 日,2023 开放数据中心大会在北京市隆重开幕。
9 月 13 日至 14 日,2023 开放数据中心大会在北京市隆重开幕。锐捷网络在网络分论坛上发布了 AIGC 智算中心网络整体方案, 为 AIGC 大模型的发展提供了全方位的网络解法。
大模型发展趋势以及网络通信诉求
随着 AIGC 技术赋能产业持续升级, 业务对大模型的需求也日益旺盛, 更多的训练参数量以及更高的算力成为大语言模型的迭代目标。为了支撑多元化的行业应用, 数据中心需要更大规模的集群来承载大语言模型的分布式训练。大语言模型运算效率与网络转发带宽存在密不可分的联系, 网络带宽接入能力与网络带宽利用率是影响 GPU 利用率的关键指标。
基于以上需求和痛点, 锐捷网络解决方案经理刘洋在 2023 开放数据中心大会 (ODCC 2023) 上, 通过主题演讲《面向 AIGC 的智算中心网络建设思考》, 阐述了 AIGC 大模型的发展趋势及关键诉求, 正式发布了 AIGC 智算中心网络整体方案。方案采用统一标准化的以太网络技术, 具体提出两种 AIGC 智算中心网络解决方案。
锐捷网络解决方案经理刘洋
现场观众
高性能以太网络解决方案
高性能以太网络解决方案通过三级组网的方式可以满足 3.2 万个 400G 端口接入需求, 支撑 32K 块 GPU 卡的集群规模。在网络性能层面, 部署实施时关注 RDMA 无损网络中 PFC、ECN 等水线的设置, 进行负载均衡模式及算法优化提升网络的带宽利用率 (详细技术可参考文章《解决数据中心网络拥塞, 锐捷 RALB 负载均衡技术助力高效数据传输》)。运维优化阶段, 该方案强调对网络关键指标的实时监控, 应用智能运维平台根据现网状况进行动态调整以实现更佳的网络性能, 该解决方案已获得市场的广泛认可。
高性能以太网络解决方案
网络宽带接入层面, 锐捷网络 RG-S6980-64QC 数据中心交换机支持 64*400G 通信端口, 可以同时应用在 TOR、Leaf、Spine 三个层级, 该设备已经批量交付了很多互联网的客户。
数据中心盒式核心交换机 RG-S6980-64QC
AI-Fabric 智算中心网络解决方案
AI-Fabric 智算中心网络解决方案是锐捷网络针对 AIGC 业务场景发布的另一套解决方案。采用 NCP+NCF 为基础模块横向扩展的三级网络架构, 可以支撑 17K~32K 的大规模 GPU 卡集群。基于高性能芯片技术, 通过将数据流切分成等长的 Cell 并负载到所有链路, 提升网络带宽利用率;基于 VOQ+Credit 的端到端流控机制实现与业务无关的无损自闭环网络, 助力业务算力提升。(详细技术可参考文章《锐捷网络高性能网络方案, 为 AIGC 打通「任督二脉」》)
AI-Fabric 方案组网架构
网络宽带接入层面,AI-Fabric 智算中心网络解决方案由 400G NCP 交换机和 200G NCF 交换机组成。NCP 设备为 RG-S6930-18QC40F1, 支持 18 口 400G 的业务口, 并支持 40 口 200G 的 Fabric 内联口。NCF 设备为 RG-X56-96F1, 支持 96 口 200G 的 Fabric 内联口。该解决方案可满足不同业务需求, 具有可扩展性和灵活性。
AI-Fabric 400G 高带宽产品接入方案
在全球互联网流量不断增长和数据应用需求日益多样化的背景下, 锐捷网络致力于推动网络技术的进步和发展,AIGC 智算中心网络整体方案的推出正是其不断探索和创新的有力证明。通过持续的技术研发和产品创新, 锐捷网络将继续为全球的数据中心提供更加高效、可靠、智能的网络解决方案, 在 AIGC 时代, 助力互联网企业及各行各业的快速发展。
来源:搜狐网