体系结构优秀青年学者与博士生发展论坛 
报告题目:大语言模型量化在体系结构中的挑战和机遇
演讲摘要:LLM(大语言模型)随着模型规模的增长取得了巨大成功,但越来越大的模型使得模型推理成本越来越高,且远远超过了计算机硬件的发展速度。量化是加速并压缩大模型最有效的方法之一,然而目前LLM中存在的新特性使得现有量化方法的效果变差。 在此次报告中,首先对现有大规模语言模型量化中存在的挑战进行分析和介绍。针对这些挑战,报告提出了一种硬件友好性的量化方法。首先,我们对LLM中张量内和张量间不同的分布,提出了一种分布感知的自适应数值类型。其次,我们面向LLM中存在的Outlier,提出了Outlier感知的量化架构。我们基于这两种架构提出了一种硬件友好的量化方法以及高效的硬件设计与实现,可以对LLM进行无需训练的快速量化(PTQ),在加速LLM的推理速度、减少运算开销的同时,保证LLM的准确率与性能表现。
讲者简介:郭聪,上海交通大学计算机系博士生。他目前的研究方向是轻量化人工智能的软硬件协同优化加速,主要针对神经网络的稀疏化和量化设计新型体系结构和系统。近三年,郭聪共发表10篇论文,第一作者文章6篇,其中包括ISCA, Micro, SC等CCF-A类会议论文。他的工作受到多个硬件厂商的关注,获得了2022年华为火花奖。在博士期间,郭聪获得了包括博士研究生国家奖学金在内的多项奖学金,获得了2022年IEEE Micro年度最佳论文(Tops Picks)提名奖。2023年,郭聪荣获上海交通大学优秀毕业生荣誉称号。