新一代数据中心网络 
报告题目:高性能数据中心网络拥塞控制和故障管理
演讲摘要:以大模型为代表的人工智能发展对数据中心算力基础设施提出了更高的要求。随着数据中心节点间带宽的不断增长,高速端侧数据处理给CPU带来巨大计算开销。因此,近几年,RDMA网卡在数据中心网络中开始大规模使用,以释放CPU通用算力资源。然而,利用RDMA网卡处理高速网络数据也带来了新的挑战和问题。 在本次报告中,我将介绍:RDMA在以太网中的应用背景和关键技术,并围绕其中两个关键问题展开:高速RDMA网络拥塞控制和RDMA端主机故障瓶颈定位。介绍如何设计新型RDMA网络拥塞控制以及通用RDMA端侧瓶颈定位系统,来保障RDMA网络的低时延、大吞吐和高可靠性能。
讲者简介:北京邮电大学教授,IEEE/CCF高级会员,2014年获得清华大学博士学位,曾于加州大学伯克利分校联培一年。长期致力于云数据中心网络、网络传输协议研究。在ACM SIGCOMM、USENIX NSDI、ACM EuroSys、IEEE/ACM Trans. On Networking等网络领域重要会议/期刊发表学术论文70余篇,授权国家发明专利30余项,专利转化5项。主持国家重点研发计划(青年科学家项目)、国家自然科学面上/青年基金和华为、字节跳动创新基金等20余项项目。担任ACM CoNext、IEEE/ACM IWQoS重要网络国际会议分项联合主席及Multimedia、INFOCOM、ICPP等技术委员会委员。获中国计算机学会优秀博士学位论文奖、北京市优秀博士毕业生、首届中国科协青年人才托举工程、中国通信学会技术发明一等奖和中国电子学会创新团队奖等荣誉。