高性能互连论坛 
报告题目:大模型训练的网络优化技术研究
演讲摘要:在大模型的分布式训练过程中,网络通信往往成为系统性能的瓶颈。针对分布式机器学习训练的特点,可以从网络拓扑构建、网络流量调度、参数同步算法等方面进行网络技术优化,从而提升分布式大模型训练的整体性能。本报告主要介绍演讲人在该方向的部分研究成果。
讲者简介:李丹,清华大学教授,在数据中心网络方向,研究数据中心网络大规模路由控制、数据中心网络拓扑优化和数据中心网络流调度方法;在网络安全方向,研究安全可信的下一代互联网体系结构、互联网基础设施安全和网络空间安全自动化;在网络智能方向,研究数据驱动的智能路由控制、大规模网络仿真系统和数字孪生网络。获教育部青年科学奖,担任国家重点研发计划项目首席科学家,担任国家十四五重点研发计划“网络空间安全治理”专家组副组长。在ACM SIGCOMM、USENIX NSDI、ACM CoNext、USENIX Security、IEEE/ACM ToN等会议和期刊上发表论文100余篇,获授权专利30余项。研究成果获中国通信学会技术发明一等奖、中国电子学会科技进步特等奖。