阿里云 7 篇论文入选网络顶会 SIGCOMM 并获得优胜奖

摘要

8 月 9 日,国际网络通信顶会 SIGCOMM 昨日落下帷幕,阿里云 7 篇论文入选本次 SIGCOMM,其中 AI 网络调度成果论文斩获 SIGCOMM 2024 优胜奖。据了解,获奖论文介绍了阿里云自研的集合通信优化调度器 Crux,可提升高达 14.8% 的 GPU 计算利用率。

8 月 9 日,国际网络通信顶会 SIGCOMM 昨日落下帷幕,阿里云 7 篇论文入选本次 SIGCOMM,其中 AI 网络调度成果论文斩获 SIGCOMM 2024 优胜奖。据了解,获奖论文介绍了阿里云自研的集合通信优化调度器 Crux,可提升高达 14.8% 的 GPU 计算利用率。

(图说:阿里云获 SIGCOMM 2024 优胜奖)

ACM SIGCOMM 是计算机网络通信领域历史最悠久、最权威的顶级学术会议,至今已有 50 多年的历史。SIGCOMM 对论文质量要求极高,成果也被学术界和业界视为网络通信领域未来发展的风向标,现在耳熟能详的各种协议、技术几乎都发表在 SIGCOMM 上。2024 年度的 SIGCOMM 仅录用 62 篇论文, 录取率不到 17%,为近五年最低。

AI 网络是今年最热门的领域之一。阿里云网络研发团队从实际业务环境的深度学习任务出发,发现任务之间存在通信竞争,是 GPU 集群的训练效率不高的基础性原因。对此,团队从学术理论层面突破,证明了 GPU 利用率问题与基于任务优先级的通信调度问题是近似的,进而创新设计了集合通信优化调度器  Crux,实现更高效的选路和优先级分配机制,提升了 GPU 计算利用率。

(图说:阿里云自研集合通信优化调度器 Crux,提升 GPU 计算利用率)

实验结果表明,在 96 卡 GPU 测试环境中,Crux 可以提高 GPU 计算利用率 8.3%至 14.8%。在基于大规模生产跟踪仿真中,与 Sincronia、TACCL 和 CASSINI 等已有方案相比,Crux 可以将 GPU 计算利用率最多提高 23%。据了解,Crux 已被集成到阿里云自研通信库,实现规模化使用。

SIGCOMM 2024 优胜奖(Honorable Mentions,也即最佳论文候选),是对论文成果的业务创新价值和行业影响力的综合评价。SIGCOMM 评审专家认为 Crux 解决了多租环境深度学习中的一个基础性问题,通过理论创新和实践分析设计了一套高效的解决方案,因此授予 Crux 成果论文 SIGCOMM 优胜奖。

从 2019 年以来,阿里云有 20 余篇成果论文先后发表在 SIGCOMM 上,为国内机构之首。今年,阿里云有 7 篇论文入选 SIGCOMM。除上述介绍的 Crux 论文外,今年关于智算集群网络架构 HPN 7.0 的成果论文,成为 SIGCOMM 在 AI 智算集群网络架构领域的首篇论文。HPN 7.0 创新性地设计了「双上联+多轨+双平面」的新型数据中心网络架构,可实现单层千卡、两层万卡 GPU 的高性能和高稳定互联。

(图说:阿里云网络研发团队与大会程序委员会主席合影)

据了解,阿里巴巴曾在 2022 年获评 AMiner 全球十大网络研究机构,是榜单中唯一的中国科技企业。阿里云在网络技术领域创新成果不断,业界首个提出了端网融合的可预期网络技术体系,并在全球率先大规模实践 RDMA 低延时网络、AI 智算集群网络架构 HPN 7.0 等先进技术,为下一代 AI 基础设施的设计提供了新范式。

(完)

来源:互联网

 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。