演讲摘要:大模型对AI基础设施提出了更高要求,阿里云在高性能网络领域已深耕多年,提出了端网融合的可预期网络技术体系,并在业界率先完成RDMA低延时网络、高性能网络(HPN: High Performance Network)等先进技术的大规模实践。本报告将全面阐述阿里云 HPN新一代架构,其创新性地设计了“双上联+多轨+双平面”的网络架构,并自研Solar-RDMA和ACCL通信库,可实现网络的高性能和高稳定互联,大模型训练性能较上一代架构在典型场景下提升14.9%,且大幅提高了智算网络整体稳定性。
讲者简介:蔡德忠,现任阿里云智能集团研发副总裁,基础设施网络研发负责人,主导设计了阿里云新一代超大规模数据中心网络架构和面向AI大模型时代的新型高性能智算网络架构,带领团队实现了阿里云基础设施网络全域核心软硬件系统的自主研发。任Linux Foundation SONiC项目的创始成员Board Member,UEC(超以太网联盟)技术咨询委员会委员,高通量以太网联盟主席。有十多项网络领域的美国技术专利,在SIGCOMM和NSDI等国际顶级会议发表二十余篇论文。加入阿里云之前,在思科担任Distinguished Engineer,思科运营商事业部全球解决方案首席架构师。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn