新一代数据中心网络 
报告题目:分布式MoE模型训练和推理的加速方法
演讲摘要:分布式MoE模型训练采用数据和专家并行方式,通过集合通信缓解了通信瓶颈问题。本报告将介绍一个提升MoE训练效率的系统Lina。该系统将基于优先级的微操作通信调度与流水线驱动的专家打包相结合,并采用了一种基于张量分区的新调度方案,有效地减少了通信数据量。
讲者简介:香港中文大学副教授,主要从事计算机网络和系统,尤其是大数据系统和数据中心网络的研究。在SIGCOMM、ATC、DAC、EruoSys和TON等多个顶级期刊和会议发表论文100余篇。获得了ACM SIGCOMM 2022和IEEE ICNP 2015的最佳论文奖。