大模型基础理论论坛
大模型作为人工智能领域的核心技术,其基础理论研究是突破技术瓶颈、实现创新发展的关键。深入探索大模型基础理论,不仅能提升模型性能与效率,更为人工智能的长远发展筑牢根基。本论坛聚焦大模型基础理论前沿议题,围绕大模型 scaling law,探讨模型规模、数据量与性能间的关系;剖析大模型推理能力来源,揭秘智能涌现的内在机制;开展 LLM 不确定性刻画研究,增强模型决策的可靠性;探索 LLM 模型平均与协同方法,优化多模型协作效能;探究大模型训练最优衰减率,实现高效训练;解析大模型对齐中的弱到强泛化机理,保障模型输出的安全性与准确性。论坛旨在汇聚学界、业界智慧,推动大模型基础理论研究取得新突破,引领人工智能技术向更高水平迈进。
论坛主席:刘勇,长聘副教授,中国人民大学
刘勇,中国人民大学,长聘副教授、博士生导师、国家级高层次青年人才。博士毕业于天津大学。从事机器学习研究,特别关注大模型基础理论分析、统计机器学习、图表示学习等。发表高水平论文100多篇,其中以第一作者或通讯作者发表高水平文章50余篇,涵盖机器学习领域顶级期刊TIT、JMLR、TPAMI、Artificial Intelligence 和顶级会议ICML,NeurIPS,ICLR等。曾获得中国科学院“青年创新促进会”会员(院人才)以及中国科学院信息工程研究所“引进优秀人才”称号。担任国际顶级会议IJCAI高级程序委员,NeurIPS、ICML、AAAI、ECAI等程序委员。主持多项科研基金项目,包括国家自然科学基金青年基金、面上项目、中国科学院基础前沿科学研究计划、腾讯犀牛鸟基金、联通联合项目、华为联合项目等。
报告1:大模型的扩展率与知识学习机制
报告人简介:李建,清华大学交叉信息研究院长聘教授,博士生导师。研究方向为理论计算机科学、人工智能基础理论、金融科技。在主流国际会议和杂志上发表了100余篇论文,并获得了数据库顶级会议VLDB和欧洲算法年会ESA的最佳论文奖、数据库理论会议ICDT最佳新人奖、多篇论文入选口头报告或亮点论文。入选国家级青年人才计划。曾主持或参与了多项自然科学基金项目及企业合作项目。
报告摘要:大型语言模型已在众多任务中展现出卓越能力,但其底层机制及拓展律(Scaling Law)、幻觉等现象仍缺乏系统性理论解释。本研究基于Kolmogorov复杂性与Shannon信息论,重新审视压缩与预测的经典关系,以深入解析LLM行为机制。通过运用柯尔莫哥洛夫结构函数,将LLM压缩解读为两阶段编码过程,我们详细揭示了模型如何随规模扩展获取并存储信息——从普遍存在的句法模式到日益稀疏的知识要素。受此理论视角及 Heap定律和Zipf定律启发,我们提出了"句法-知识模型"的理论模型。在贝叶斯设定下,我们可以证明,在该模型下,预测与压缩可以自然衍生出LLM的多样化学习行为与规模扩展规律。特别地,通过理论模型,我们可以为多个重要的实验现象提供了直观的理论解释,包括大模型的扩展率,训练及微调过程中的知识获取动态,部分事实性知识幻觉的产生原因等。
报告2:强化学习算法是大模型推理能力的来源吗?
报告人简介:张奇,复旦大学计算机科学技术学院教授、博士生导师。兼任上海市智能信息处理重点实验室副主任,中国中文信息学会理事、CCF 大模型论坛常务委员。在ACL、EMNLP、COLING、全国信息检索大会等重要国际国内会议多次担任程序委员会主席、领域主席、讲习班主席等。在国际重要学术刊物和会议发表论文200余篇,著有《自然语言处理导论》和《大规模语言模型:理论与实践》。获得WSDM 2014最佳论文提名奖、COLING 2018 领域主席推荐奖、NLPCC 2019杰出论文奖、COLING 2022杰出论文奖。获得上海市“晨光计划”人才计划、复旦大学“卓越2025”人才培育计划等支持,获得钱伟长中文信息处理科学技术一等奖、汉王青年创新一等奖、上海市科技进步二等奖、教育部科技进步二等奖、IBM Faculty Award等奖项。
报告摘要:大模型在推理任务上表现越来越好,在2025年的高考数学中很多模型取得了超过140分的成绩。但是大模型真的具备推理能力吗?大模型的推理能力是来源于强化学习算法吗?如何提升大模型的推理能力?等等问题受到越来越多的关注。本次报告将从大模型能力边界的实践研究和大模型能力来源分析两个方面,结合国内外最新研究进展与报告人及团队工作进行介绍。
报告3:LLM的不确定性刻画与应用
报告人简介:张长青,天津大学智能与计算学部教授、博士生导师,国家级青年人才,其主要研究方向为机器学习、计算机视觉、智能医疗。2017-2018年在北卡罗拉纳大学教堂山分校担任研究员。在Nature Communications/IEEE TPAMI/IJCV/ICML/NeurIPS/ICLR等期刊和国际会议上发表论文50余篇。Google Scholar引用1万3千次。研究成果获得天津市自然科学一等奖、重庆市自然科学一等奖、中国图象图形学学会自然科学奖一等奖、ICME最佳论文等奖励,入选百度发布的全球高潜力AI华人青年学者榜单、斯坦福大学发布的全球Top 2%顶尖科学家榜单、爱思唯尔“中国高被引学者”。受邀担任Pattern Recognition副编辑、中国图象图形学报青年编委及顶级会议ICLR/IJCAI领域主席。
报告摘要:医生面对复杂病情时倾向于要求更多检查,但AI系统常直接输出高置信度的诊断建议;科研人员查找权威文献以支撑研究,大模型用citation的格式为根本不存在的文献背书。这种差异揭示了智能系统的核心缺陷:当前模型缺乏对不确定性的准确刻画能力,导致其无法像人类一样感知风险。本报告将(1)介绍传统神经网络中如何刻画不确定性,以及如何利用不确定性提高模型的准确性与可靠性;(2)针对传统不确定性刻画方法在大语言模型上纷纷失效,揭示造成这种困境的原因,并给出解决思路。通过理论结合实践,为学术界与工业界提供不确定性刻画与应用的新视角,推动不确定性研究在大模型时代迈向更深更广的应用。
报告4:LLMs的模型平均与模型协同
报告人简介:张骁,中国人民大学高瓴人工智能学院准聘副教授,中国人民大学杰出学者青年学者。研究方向为:可信机器学习、在线&强化学习、大模型赋能的信息检索。已在本领域相关的国内外学术期刊和会议上发表论文六十余篇,获得SIGIR 2024最佳短文提名奖、VLDB 2024最佳论文提名奖、WWW 2023最佳论文提名奖,主持人工智能重大专项子课题、国自然面上等科研项目十余项。
报告摘要:在大语言模型(LLMs)应用中,如何通过模型干预实现 Test-Time 的LLMs控制是实现AI可控性的关键问题之一。本报告聚焦LLMs的模型参数平均与大小模型协同两种模型干预方式:在模型平均方面,围绕LLMs可控生成问题,证明了LLMs简单平均方法的非最优性,提出了可自适应组合子LLMs的Bone Soup方法,在保证用户可控性的同时逼近生成结果的帕累托最优性;在模型协同方面,关注大小模型协同在降低LLMs部署开销中的应用问题,以搜索场景中的查询纠错为例,围绕简单拼写错误、背景知识不足等多方面因素,提出了面向查询纠错的自适应大小模型协同方法Trigger3,在保证查询纠错性能的同时减少调用大语言模型的次数。
报告5:大模型训练的最优学习率衰减是什么?
报告人简介:吕凯风,清华大学交叉信息研究院助理教授,主要研究方向为机器学习理论和人工智能对齐。在加入清华大学任教前,他曾在加州大学伯克利分校西蒙斯计算理论研究所担任博士后研究员。他2024年博士毕业于普林斯顿大学(师从Sanjeev Arora教授),2019年本科毕业于清华大学。其研究成果发表在NeurIPS、ICML、ICLR等机器学习顶级会议上,曾获得ICLR 2025最佳论文奖。
报告摘要:大模型训练成本极其高昂,难以在大规模训练中直接调整超参数,尤其是学习率及其衰减策略。本报告将介绍我们近期的研究工作:我们提出了一条基于多重幂律的扩展定律,仅需不超过三次训练,即可在包括常数学习率、余弦衰减、阶梯衰减等多种调度策略下,精确预测大模型预训练的损失曲线。更进一步,我们通过最小化最终训练损失的预测值,自动搜索出一种优于传统余弦衰减的学习率衰减策略。其形状与近期提出的 Warmup-Stable-Decay(WSD)策略类似,但在最终损失上表现更加出色。
报告6:大模型对齐中的弱到强泛化机理研究
报告人简介:汪子乔,同济大学计算机科学与技术学院助理教授。研究方向为机器学习基础理论、统计学习原理以及信息论。近三年主要成果发表在人工智能、机器学习及数据挖掘等相关领域国际顶级会议,涵盖NeurIPS、ICML、ICLR、UAI、AAAI、KDD、WWW等,博士论文被提名2025年加拿大人工智能协会最佳博士论文奖,以及提名2025年渥太华大学总督学术奖章和Pierre Laberge论文奖。曾担任IEEE North American School of Information Theory (NASIT) 2024核心组织成员。
报告摘要:在当前大模型对齐研究中,一个备受关注的现象是弱到强泛化(Weak-to-Strong Generalization, W2SG),即通过弱教师模型生成伪标签,指导强学生模型进行训练,从而实现学生在目标任务中反超教师的现象。尽管这一现象已被实证观察到,但其理论机理仍未被充分揭示。本报告围绕W2SG的理论分析展开,重点在于用Bregman散度下的广义偏差-方差分解刻画学生与教师之间的风险差异,首次在不依赖假设空间凸性这一强假设的前提下,推导出基于“预测不一致性”的W2SG不等式。我们进一步理论证明对于容量足够大的学生模型,W2SG现象更有可能出现。与此同时,我们发现适度的正则化或早停对于避免学生模型过度拟合教师标签是必要的。此外,在W2SG损失函数选择方面,我们理论上比较了标准交叉熵与反向交叉熵在W2SG场景下的表现,指出后者在面对教师预测不确定性时更加稳健。最后,我们通过实证分析验证了上述理论发现,包括学生模型容量对W2SG的影响,以及来自多个教师模型的平均监督对提升学生性能的作用。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn