ChinaMM 2023讲习班
时 间: 2023年8月2日13:30~17:00
地 点: 中国昆明
讲习班1:智能多媒体计算
简介:
随着多媒体和互联网技术的迅猛发展,信息的传播形式已由单一文本为主发展为包含图像、视频、文本、音频、3D等多媒体数据并存,具有语义抽象、复杂多变、多源异构等特点,如何对其进行感知、理解、交互与生成等智能计算,是综合利用多媒体数据实现其价值的关键,受到了研究人员的广泛关注。本讲习班围绕这一热点问题,介绍图像感知、交互运动实时重建、音乐生成、三维交互的策略规划、多模态预训练等方面最新研究现状与进展,并对其未来研究进行展望。
日程安排:
主持人:彭宇新(北京大学) | ||
时间 | 内容 | 嘉宾 |
13:30~13:35 | 致辞 | 彭宇新(北京大学) |
13:35~14:15 | 粒度自适应的图像感知技术 | 程明明(南开大学) |
14:15~14:55 | 基于物理的交互运动实时重建 | 徐枫(清华大学) |
14:55~15:35 | 人工智能辅助视频背景音乐生成 | 刘偲(北京航空航天大学) |
15:35~16:15 | 三维交互的表征学习与策略规划 | 胡瑞珍(深圳大学) |
16:15~16:55 | 多模态预训练大模型:技术与应用 | 魏秀参(南京理工大学) |
16:55~17:00 | 总结 | 彭宇新(北京大学) |
报告嘉宾:
程明明,南开大学
题目:粒度自适应的图像感知技术
报告摘要: 图像中蕴含着丰富的多粒度信息。不论是简单的分类任务,还是更加复杂的目标检测、语义分割、物体跟踪、姿态估计等,几乎所有的视觉感知任务都需要丰富的各种粒度的信息的共同配合才能够进行鲁棒的判断。卷积神经网络中,小尺度信息可以通过卷积操作进行高效的建模,大尺度特征的建模通常计算量需求较大。本报告面向视觉感知任务需求,重点介绍如何高效的提取和融合多粒度信息,并且通过神经网络架构高效搜索的方式对神经网络中的不同层自适应地选择特征提取的粒度。本报告所介绍的粒度自适应视觉感知技术在多种计算机视觉任务中展现出了优越的性能,包括但不限于:图像分类、目标检测、语义分割、实例分割、关键点估计等。这些技术的应用范围也不局限于视觉信息处理,也被众多国际同行应用在语音合成、蛋白质结构预测、对抗样本鲁棒性研究等领域。
嘉宾介绍:程明明,南开大学教授,计算机系主任。主持承担了国家杰出青年科学基金、优秀青年科学基金项目、科技部重大项目课题等。他的主要研究方向是计算机视觉和计算机图形学,在SCI一区/CCF-A类刊物上发表学术论文100余篇(含IEEE TPAMI论文29篇),h-index为67,论文谷歌引用3.3万余次,单篇最高引用4400余次,多次入选中国高被引学者和全球高被引科学家。技术成果被应用于华为、推想、航天三院、和中化农业等。获得多项省部级科技奖励。现担任中国图象图形学学会副秘书长、天津市人工智能学会副理事长和SCI一区期刊IEEE TPAMI, IEEE TIP编委。
徐枫,清华大学
题目:基于物理的交互运动实时重建
报告摘要: 针对人的运动感知和重建是计算机图形学、计算机视觉领域的热点研究问题,以人脸、人体、人手以及全身为研究对象的相关技术,对影视、游戏、虚拟/增强现实等应用场景具有重要意义。随着技术的不断发展,在纯人感知与重建的基础上,人与物体的交互场景受到越来越多研究者的关注,成为这一领域的前沿方向之一,有望对未来机器人、人机交互等技术的发展注入新的活力。然而交互运动中人与物体互相遮挡,物体复杂运动的引入等,都给问题的解决增加了新的困难。本报告将针对这些新的困难,探讨如何在算法中使用物理规律以提供更多的解决思路和方法。
嘉宾介绍:徐枫,清华大学软件学院长聘副教授,博士生导师,国家优秀青年科学基金,北京市杰出青年基金获得者。研究方向包括人工智能、智慧医疗、虚拟/增强现实等。相关工作发表在Nature Medicine, Lancet Digital Health, ACM SIGGRAPH, CVPR等国际权威期刊和会议上。多次担任国际重要期刊和会议的编委和程序委员,担任中国人工智能学会副秘书长,中国电子学会虚拟现实分会副主任委员。获得中国图象图形学学会技术发明一等奖(第1发明人)。
刘偲,北京航空航天大学
题目:人工智能辅助视频背景音乐生成
报告摘要: 视频自动配乐旨在为一段视频生成和谐动听的背景音乐,是AI与艺术结合的核心课题之一。与传统生成任务不同,音乐创作不仅需要海量数据来驱动,更需要融入专业的乐理知识来指导和约束音乐生成的过程。而视频配乐,需要更进一步的探索如何将视频中的元素与音乐元素建立映射,从而生成与视频内容紧密结合的音乐。基于此,本报告深入探讨视频元素与音乐元素的关联,提出业界首个视频自动配乐算法。此外,由于视频和音乐元素配对数据库的缺失,导致生成背景音乐与视频内容关联弱的问题。我们构建了一个视频与音乐元素配对的数据库,并构建了层次化视频指导的音乐生成算法,提出了一套视频音乐匹配度指标自动化计算方法,从而形成了视频配乐的完整研究体系。
嘉宾介绍:刘偲,北京航空航天大学教授,博导。主持国家优秀青年科学基金。研究方向是跨模态多媒体智能分析以及经典计算机视觉任务。共发表了CCF A类论文60余篇,含IEEE TPAMI 6篇。Google Scholar引用9000+次。2017年入选中国科协青年人才托举工程。获吴文俊人工智能优青奖、CSIG石青云女科学家奖。获多媒体领域顶会ACM MM 2012最佳技术演示奖,ACM MM 2013、ACM MM 2021最佳论文奖,以及IJCAI 2021最佳视频奖。主办了ECCV 2018、ICCV 2019、CVPR 2021“Person in Context”workshop。担任中国图象图形学学会理事、副秘书长。多次担任ICCV、CVPR、ECCV、ACM MM等顶级会议领域主席(AC)。担任IEEE TMM、IEEE TCSVT编委。获得10项CVPR、ICCV、ACL等国际顶级竞赛冠军。
胡瑞珍,深圳大学
题目:三维交互的表征学习与策略规划
报告摘要: 人类智能是在和环境交互中进化的,因此对三维交互进行有效表达、分析和处理是实现类人智能的关键。本报告将从三维场景生成任务出发,介绍从传统的基于几何计算的显式表征设计到基于深度学习的隐式表征学习方法的演变,并介绍在几何交互表征学习的基础上进行的系列交互分析和生成工作,引导了复杂交互的定位与生成,规划了动态交互的执行过程,实现了对三维交互的高层次理解和优化。
嘉宾介绍:胡瑞珍,深圳大学长聘副教授,博士生导师,广东省杰青,深圳市优青。研究方向为计算机图形学,长期从事智能几何建模与处理方面的研究,发表ACM SIGGRAPH/TOG和IEEE TVCG论文20余篇;曾入选中科协青年人才托举工程,荣获亚洲图形学协会青年学者奖、几何设计与计算青年学者奖、时谛智能CAD&CG青年学者奖;担任SCI期刊IEEE CG&A,Computer & Graphics和The Visual Computer编委;担任国际会议CVM 2023和SMI 2020程序委员会主席,连续多年担任SIGGRAPH大会程序委员会委员;担任中国计算机学会计算机辅助设计与图形学专委会副秘书长、计算机图形学与混合现实在线平台(GAMES)线上活动运营负责人。
魏秀参,南京理工大学
题目:多模态预训练大模型:技术与应用
报告摘要: 预训练大模型现已成为全球人工智能领域瞩目的焦点。与此前常见的有监督学习范式不同,预训练大模型可充分利用大规模无标注数据进行学习训练,并使用下游任务的少量标注数据进行模型微调。与直接训练具体任务的模型相比,预训练模型具有更好的通用性与迁移能力,在其基础上微调得到的模型在多种下游任务上均取得了显著性能提升。随着单模态预训练模型的快速发展,多模态大模型逐渐受到学术界和工业界的广泛关注,其旨在将文本、语音、图像、视频等多模态内容联合起来进行学习,专注多模态内容之间的关联特性及跨模态转换问题,由此实现多模态数据从浅层语义到通用知识的跨越。本次讲习班将针对多模态预训练大模型的相关技术与实际应用展开,介绍其在相关方面的研究进展和未来发展方向。讲者希望通过该讲习班使听众能够了解:1)多模态预训练大模型的发展背景;2)多模态预训练大模型的重要技术;3)多模态预训练大模型的现有应用。在学术上,该讲习班可进一步增强听众对多模态预训练模型领域的关注度及其技术理解;在应用上,该讲习班可普及多模态预训练模型相关技术并在一定程度加速相应技术的落地应用。
嘉宾介绍:魏秀参,南京理工大学计算机科学与工程学院教授、博士生导师。主要研究领域为计算机视觉和机器学习,在相关领域国际顶级期刊和会议发表论文六十余篇,Google Scholar 引用 4000+次,相关研究成果获得含iNaturalist在内的计算机视觉领域国际权威赛事共6项世界冠军。曾在CVPR等国际会议讲授“图像细粒度分析”为主题的短课程。著有《解析深度学习:卷积神经网络原理与视觉实践》一书。曾入选中国科协青年人才托举工程、江苏省计算机学会青年科技奖、南京经开区中青年优秀人才、《中国图象图形学报》优秀编委、《中国科学:信息科学》优秀评审人等荣誉。任中国计算机学会高级会员、中国图象图形学学会高级会员、CCF计算机视觉专委会委员、中国图象图形学报青年编委。担任ICCV、IJCAI、ACM Multimedia等国际会议Workshop程序委员会主席,ACCV 2022 Tutorial主席,AAAI、IJCAI、BMVC等会议高级程序委员或领域主席。主持国家重点研发计划青年科学家项目等。
讲习班2:图像视频智能增强
简介:
近年来,随着各种智能高清显示设备的普及,人们对图像视频的画质要求越来越高。而在诸多实际应用中,受限于成像设备、成像环境等因素的影响,实际获取的图像和视频质量较低。如何有效地提升图像视频的画质成为当前学术界和工业界共同关注的热点。数据驱动的深度学习方法在理想场景下的图像视频增强问题中取得了较好的效果。然而,成像环境复杂、数据标注困难使得现有数据驱动的方法无法有效地解决实际场景中图像视频增强问题。数据与知识联合驱动的图像视频智能增强方法成为当前研究的热点。本讲习班围绕该热点问题展开,介绍其在相关方面的研究进展和未来发展方向。
日程安排:
主持人:唐金辉(南京理工大学) 毋立芳(北京工业大学) | ||
时间 | 内容 | 嘉宾 |
13:30~13:35 | 致辞 | 唐金辉(南京理工大学) |
13:35~14:15 | 智能成像的模型与数据双驱动方法 | 孙剑(西安交通大学) |
14:15~14:55 | 贝叶斯图像恢复:从深度先验到不确定性估计 | 董伟生(西安电子科技大学) |
14:55~15:35 | 鲁棒图像重建:从随机噪声到结构性降质 | 杨敬钰(天津大学) |
15:35~16:15 | 知识驱动的图像视频增强方法 | 潘金山(南京理工大学) |
16:15~16:55 | 低质量图像视频复原与目标检测:技术与应用 | 任文琦(中山大学) |
16:55~17:00 | 总结 | 毋立芳(北京工业大学) |
报告嘉宾:
孙剑,西安交通大学
题目:智能成像的模型与数据双驱动方法
报告摘要: 深度学习已经成为当前智能医疗影像分析领域中的前沿方法与工具。本报告将首先分析成像(尤其医疗成像)人工智能方法所面临的基本挑战,以及深度学习技术在智能医学影像分析中的弱点与不足。(1)针对深度学习的黑箱特性以及可解释性不足的问题,介绍如何结合医疗影像的成像机制与领域知识,发展融入领域知识的模型驱动深度学习技术;(2)针对当前深度学习方法在多模态/多中心应用中的推广性和自适应能力弱的问题,介绍深度学习在领域自适应、跨模态影像生成等方面的研究进展。
嘉宾介绍:孙剑,西安交通大学数学与统计学院教授,获得国家杰出青年科学基金。长期从事人工智能(尤其是图像和医学影像分析)中的数学模型与算法研究;曾在微软亚洲研究院、法国巴黎高师、法国国家信息与自动化研究院等做博士后或访问学者;获陕西省自然科学奖一等奖;担任国际权威期刊IJCV编委,重要国际会议ICCV/ECCV/MICCAI领域主席。
董伟生,西安电子科技大学
题目:贝叶斯图像恢复:从深度先验到不确定性估计
报告摘要: 近年来得益于深度网络强大的学习能力,卷积深度神经网络在图像视频超分辨率、降噪和计算重建等任务上取得了优异性能。然而现有大多数方法侧重于深度网络结构设计,忽略了图像恢复问题的领域知识,使难以进一步提升性能和泛化性。在本报告中,我们结合最大后验概率估计,利用深度网络学习参数化图像分布,构建了基于最大后验概率估计的深度网络。针对现有图像恢复网络学习中忽略了不同区域恢复难度差异较大的问题,提出了基于不确定性驱动损失函数的图像恢复方法,有效提升图像恢复性能;针对真实图像超分辨率问题,提出图像退化模型不确定性学习方法,通过模拟生成真实低分辨率图像数据集,提升超分辨率重建性能。
嘉宾介绍:董伟生,西安电子科技大学人工智能学院教授、副院长,教育部“长江学者”。主要从事图像视频处理、深度学习、计算机视觉等方面的研究工作。主持包括JKW基础加强项目、国家自然科学基金重大项目课题、科技部重点研发项目课题等项目,曾入选“优青”、万人计划“青年拔尖人才”项目。在国际权威期刊和会议上发表论文100余篇,论文已被Google引用9000余次,单篇Google引用1300余次。曾任中国计算机学会推荐A类期刊IEEE Transactions on Image Processing编委、CVPR 2022领域主席,现任SIAM Journal on Imaging Sciences编委。曾获国家自然科学奖二等奖1项(排名第二)。
杨敬钰,天津大学
题目:鲁棒图像重建:从随机噪声到结构性降质
报告摘要: 从降质视觉数据中恢复干净的影像是底层视觉领域的核心任务之一。作为日常应用,人们常需要对演示屏幕进行即时拍摄,以备忘、分享其中感兴趣的内容。然而,由于显示点阵与采样点阵的混叠,屏摄图像包含形态多变的摩尔纹,难以被现有的图像增强有效处理。本次报告将介绍研究组在摩尔纹降质图像增强方向的系列工作,包括:分析刻画摩尔纹的成因与特性,构建基于低秩稀疏分解的纹理图像去摩尔纹模型;针对屏摄图像摩尔纹难以去除的问题,给出去摩尔纹配对数据构造方法,建立去摩尔纹学习网络;探索基于RAW域的去摩尔纹方法,设计解耦处理策略,进一步提升增强性能;针对监督式去摩尔纹依赖大量配对数据的缺点,提出了无监督学习的图像去摩尔纹方法。
嘉宾介绍:杨敬钰,天津大学自动化学院教授。主要从事图像视频处理、深度学习、计算机视觉等方面的研究工作。主持包括国家自然科学基金重点项目等科研项目,入选天津市创新人才推进计划、国家万人计划“青年拔尖人才”等项目。在国际知名期刊和会议上发表论文140余篇,曾获国际会议VCIP2016与ICME2017论文奖。曾获天津市技术发明一等奖、国家技术发明奖二等奖等科技奖励。
潘金山,南京理工大学
题目:知识驱动的图像视频增强方法
报告摘要: 近年来,基于深度学习的图像视频增强方法取得了显著的进展,然而现有的图像视频增强模型大、泛化性差,难以在资源受限的设备上部署。针对这一问题,本报告以如何有效地挖掘图像视频中的领域知识来指导深度学习模型构建为主线,介绍本研究组在清晰图像与退化图像特征空间协同建模、局部与非局部自相似建模以及深度学习特征的通道建模等知识驱动的轻量化图像视频增强方面的最新研究工作。
嘉宾介绍:潘金山,南京理工大学计算机科学与工程学院教授、博士生导师。主要从事图像视频复原与增强等相关底层视觉问题的研究。目前在国际权威期刊和会议上发表论文80余篇,其中CCF-A类论文60余篇。所发表论文在Google Scholar中被引用9000余次。研究工作获得2018年度中国人工智能学会优秀博士学位论文奖、辽宁省优秀博士学位论文奖以及2019年度国家优秀青年科学基金资助。担任计算机视觉领域顶级国际会议CVPR的领域主席(Area Chair)以及人工智能领域顶级国际会议AAAI、IJCAI等的资深程序委员。目前主持国家自然科学基金委-联合基金重点项目、面上项目等国家级科研项目。
任文琦,中山大学
题目:低质量图像视频复原与目标检测:技术与应用
报告摘要: 低质量图像视频内容感知涉及到图像质量增强和目标检测。虽然图像质量增强和目标检测都有大量的研究工作,但是图像增强与检测之间的关系尚不清晰,无法保证图像增强的预处理算法一定有利于下游目标检测任务。本次报告首先介绍几种图像视频恢复及增强的方法研究,针对成像过程中模糊、雨雾、低分辨率、低动态范围等不同质量退化的成因,提出针对性的解决方案。其次,提出一种兼顾下游目标检测效果增益的图像恢复算法,利用基于ADAM优化器设计的目标对抗样本生成算法对干净标签进行对抗攻击,获得与原始干净样本接近又兼顾下游目标检测效果的伪标签,用其监督训练得到的图像恢复模型可以保证图像清晰化的同时提升目标检测准确度。
嘉宾介绍:中山大学 “百人计划”副教授。主要研究方向包括计算机视觉与人工智能。在本领域内国际期刊和会议发表CCF-A类学术论文50余篇,谷歌学术引用7000余次,6篇论文入选ESI高被引论文。担任《中国图象图形学报》青年编委,及人工智能与计算机视觉领域多个国际会议AC和SPC等。主持国家基金2项,及多项腾讯、百度等企业项目,积极促进研究成果产业化。获中国计算机学会优秀博士论文奖和吴文俊人工智能优秀青年奖。
讲习班主席介绍:
彭宇新,北京大学二级教授、博雅特聘教授、国家杰出青年科学基金获得者、国家万人计划科技创新领军人才、科技部中青年科技创新领军人才、863项目首席专家、中国人工智能产业创新联盟专家委员会主任、中国工程院“人工智能2.0”规划专家委员会专家、北京图象图形学学会副理事长、中国图象图形学学会会士、副秘书长、提名与奖励委员会副主任。主要研究方向为跨媒体分析、计算机视觉、机器学习、人工智能。以第一完成人获2016年北京市科学技术奖一等奖和2020年中国电子学会科技进步一等奖,2008年获北京大学宝钢奖教金优秀奖,2017年获北京大学教学优秀奖。主持了863、国家自然科学基金重点等30多个项目,发表论文170多篇,包括ACM/IEEE Trans和CCF-A类论文80多篇。多次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频样例搜索比赛,均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任IEEE TMM、TCSVT等期刊编委。
唐金辉,南京理工大学二级教授、计算机学院/人工智能学院院长,长期从事多媒体分析、计算机视觉与模式识别领域的研究,获得国家杰出青年科学基金、优秀青年科学基金、国家973计划项目、重点研发项目、国家基金重点项目等20余项国家和省部级项目资助,入选国际模式识别学会会士(IAPR Fellow)、国家“万人计划”科技创新领军人才和青年拔尖人才,曾获国家自然科学二等奖1项、省部级一等奖4项、教育部自然科学二等奖2项,担任过IEEE TKDE、TMM、TNNLS、TCSVT编委。
毋立芳,北京工业大学教授、博士生导师、CSIG理事、BSIG常务理事兼副秘书长、CCF计算机视觉专委会常务委员兼副秘书长、CSIG视觉大数据专委会常务委员、CCF杰出会员。近年来主持科技部重点专项课题、国家自然科学基金、北京市基金重点项目等20余项,发表学术论文100余篇,获授权发明专利40余项。获北京市技术发明奖二等奖、CSIG技术发明奖二等奖、北京市科技进步奖三等奖等5项,获北京市中青年骨干教师、首都最美巾帼奋斗者(2022)等荣誉。《信号处理》、《中国图象图形学报》等期刊编委。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn