2023中国多媒体大会
  • 登录
  • 注册
  • 欢迎您:hlladmin 退出
报名 团报
分享

微信扫一扫:分享

微信里点“发现”,扫一下

二维码便可将本文分享至朋友圈

  • 首页
  • 会议动态
  • 组委会
  • 会议日程
    日程总览详细日程
  • 讲习班
  • 技术论坛
    多媒体女性菁英论坛技术论坛:人工智能与艺术创作技术论坛:大模型时代的多媒体内容理解与生成高峰论坛:数据和知识双轮驱动:从机器学习到学习机器技术论坛:人才发展论坛技术论坛:中科院计算所刊群论坛——三维媒体分析技术论坛:跨媒体智能分析与推理技术论坛:开放环境下的多媒体计算技术论坛:多模态媒体信息智能传播与分析技术论坛:三维点云数据分析、压缩与处理技术论坛:标注受限场景下的多视角和多模态学习技术论坛:AI4Food:食品和健康计算青年论坛(快手冠名):智能视频压缩技术论坛:媒体计算与可信传播技术论坛:大模型背景下的语音信号理解理论与技术
  • 参会指南
  • 大会征文
  • 注册与投稿
  • 资料下载
  • 诚征赞助
  • 会议照片
  • 线上直播
  • 首页
  • 会议动态
  • 组委会
  • 会议日程
    日程总览详细日程
  • 讲习班
  • 技术论坛
    多媒体女性菁英论坛技术论坛:人工智能与艺术创作技术论坛:大模型时代的多媒体内容理解与生成高峰论坛:数据和知识双轮驱动:从机器学习到学习机器技术论坛:人才发展论坛技术论坛:中科院计算所刊群论坛——三维媒体分析技术论坛:跨媒体智能分析与推理技术论坛:开放环境下的多媒体计算技术论坛:多模态媒体信息智能传播与分析技术论坛:三维点云数据分析、压缩与处理技术论坛:标注受限场景下的多视角和多模态学习技术论坛:AI4Food:食品和健康计算青年论坛(快手冠名):智能视频压缩技术论坛:媒体计算与可信传播技术论坛:大模型背景下的语音信号理解理论与技术
  • 参会指南
  • 大会征文
  • 注册与投稿
  • 资料下载
  • 诚征赞助
  • 会议照片
  • 线上直播
  • 欢迎您:hlladmin
  • 退出
  • 登录
我要报名

ChinaMM2023专题论坛 | 大模型时代的多媒体内容理解与生成

发布时间: 2023.04.06

ChinaMM 2023 专题论坛

大模型时代的多媒体内容理解与生成

    

    一、论坛简介

 近年来,以CLIP为代表的大规模视觉语言预训练模型在零样本识别、开放场景视觉识别以及视觉语言多模态语义匹配任务中取得了显著的性能突破,并表现出了极高的潜能和优势。越来越多的研究通过将预训练的基础大模型适配到下游任务来提升性能,但随着模型的规模化发展,存储及计算开销也在不断增加,导致全模型的微调变得难以实现。因此,研究者们开始关注如何高效的将预训练大模型适配到视觉、语言以及多媒体理解等下游任务。近期基于提示学习的模型适配方法逐渐展示出其优越性成为了主流的研究范式,其理念源于自然语言理解领域的模型微调,通过在输入文本中增加可学习的语言指令来将预训练模型适配到特定的任务,而无需改变预训练模型自身的权重。这一学习范式在计算机视觉和多媒体领域已得到有效验证。本次论坛希望邀请大规模预训练、提示微调学习以及多媒体内容理解与生成方向的专家学者介绍领域当前的研究现状并共同探讨提示学习的研究范式在多媒体内容理解与生成方向的潜力和技术发展趋势。

    

    二、论坛议程

    时长:4小时

    形式:研讨会

    

    三、组织者

        

        李冠彬,中山大学

    个人简介:李冠彬,中山大学计算机学院副教授,博士生导师。主要研究领域包括计算机视觉与机器学习,迄今为止累计发表论文100余篇,其中包含CCF A类/中科院一区论文80余篇, Google Scholar引用超过7800次。曾获得吴文俊人工智能优秀青年奖、ICCV2019最佳论文提名奖、ICMR2021最佳海报论文奖、中国图象图形学学会科学技术一等奖、ACM中国新星提名奖、英伟达AI城市挑战赛冠军等荣誉。主持了包括广东省杰出青年基金、国家自然科学基金面上项目、国家自然科学基金青年项目、CCF-腾讯犀牛鸟科研基金等10多项科研项目。担任广州计算机学会副秘书长、CCF YOCSEF广州副主席、CSIG青工委委员、视觉与学习青年学者研讨会(VALSE)高级执行AC委员等。


        

        刘偲,北京航空航天大学

        个人简介:刘偲,北航教授,博导。主持国家优秀青年科学基金。博士毕业于中科院自动化所,曾于新加坡国立大学(NUS)任RA和博后,曾任微软亚洲研究院(MSRA)铸星计划研究员。研究方向是跨模态智能分析、目标检测和跟踪。共发表了CCF A类论文80余篇,含IEEE TPAMI 7篇。Google Scholar引用10000+次。2017年入选中国科协青年人才托举工程。获CCF-腾讯犀牛鸟专利奖、吴文俊人工智能优青奖、CSIG石青云女科学家奖。获多媒体领域顶会ACM MM 2012最佳技术演示奖,ACM MM 2013、ACM MM 2021最佳论文奖,以及IJCAI 2021最佳视频奖。指导学生获ChinaMM 2018最佳学生论文奖和PRCV 2020最佳论文提名奖。主办了ECCV 2018、ICCV 2019、CVPR 2021、ACM MM 2022‘Person in Context’workshop。担任中国图象图形学学会理事、副秘书长。多次担任ICCV、CVPR、ECCV、ACM MM等顶级会议领域主席(AC)。担任IEEE TMM、IEEE TCSVT编委。 获得10余项CVPR、ICCV、ACL等国际顶级竞赛冠军。


   四、报告嘉宾


        报告题目:语言增强的零样本视觉学习

     

        左旺孟,哈尔滨工业大学

     讲者简介:哈尔滨工业大学计算机学院教授、博士生导师。主要从事底层视觉、视觉生成、视觉理解和多模态学习等方面的研究。在CVPR/ICCV/ECCV/NeurIPS/ICLR等顶级会议和T-PAMI、IJCV及IEEE Trans.等期刊上发表论文100余篇。曾任ICCV2019、CVPR2020/2021等CCF-A类会议领域主席,现任IEEE T-PAMI、T-IP、中国科学-信息科学等期刊编委。


    报告摘要:近年来,随着CLIP、Stable Diffusion等多模态预训练模型的出现,如何在各种下游任务中充分利用预训练大模型进行微调和提示学习,已成为近年来计算机和多模态学习的研究热点问题和重要发展趋势。针对上述挑战性问题,本报告主要包括三个方面:(1) 以3D点云分类为例,探讨如何将图像-语言预训练模型拓展至其他视觉模态如3D点云;(2) 以物体检测为例,探讨如何基于多模态预训练生成模型实现更复杂视觉任务的零样本学习。(3) 以多标签分类为例,探讨如何将语言数据作为视觉监督信息,进一步增强零样本视觉学习性能;通过上述分析介绍,期望更多种类的预训练模型(如:CLIP、Stable Diffusion)可以更为广泛地应用于各种视觉模态(如:图像、点云)和复杂视觉任务(如:分类、检测、分割),推动多模态预训练模型在下游任务中的研究与实际应用。


         

        报告题目:视觉网络预训练算法


     

        代季峰,清华大学

        讲者简介:在清华大学自动化系于2009年和2014年分别获得学士和博士学位。2012年至2013年间,他在加州大学洛杉矶分校访学。2014年至2019年间,他在微软亚洲研究院 (MSRA)视觉组工作,曾担任首席研究员、研究经理。2019年至2022年,他在商汤科技研究院工作,担任基础视觉、通用智能两个二级部门负责人,执行研究总监。他的研究兴趣为计算机视觉中的通用物体识别算法和跨模态通用感知算法。他在领域顶级会议和期刊上发表了50多篇论文,根据谷歌学术统计获得了20000多次引用。他于2015、2016年获得领域权威的COCO物体识别竞赛一等奖,后续历届冠军系统也均使用了他提出的可变形卷积模块。他在商汤科技工作期间,曾经担任本田-商汤自动驾驶研发项目的技术负责人。他是IJCV的编委,CVPR 2021和ECCV 2020的领域主席,ICCV 2019的公共事务主席,AAAI 2018的高级PC成员,北京智源人工智能研究院的青年科学家。


    报告摘要:近年来,随着CLIP、Stable Diffusion等多模态预训练模型的出现,如何在各种下游任务中充分利用预训练大模型进行微调和提示学习,已成为近年来计算机和多模态学习的研究热点问题和重要发展趋势。针对上述挑战性问题,本报告主要包括三个方面:(1) 以3D点云分类为例,探讨如何将图像-语言预训练模型拓展至其他视觉模态如3D点云;(2) 以物体检测为例,探讨如何基于多模态预训练生成模型实现更复杂视觉任务的零样本学习。(3) 以多标签分类为例,探讨如何将语言数据作为视觉监督信息,进一步增强零样本视觉学习性能;通过上述分析介绍,期望更多种类的预训练模型(如:CLIP、Stable Diffusion)可以更为广泛地应用于各种视觉模态(如:图像、点云)和复杂视觉任务(如:分类、检测、分割),推动多模态预训练模型在下游任务中的研究与实际应用。


         

        报告题目:可控及个性化跨模态图像创作


     

        林倞,中山大学

        讲者简介:国家重大青年项目获得者,国家优秀青年基金获得者,教育部超算工程软件工程研究中心副主任,IET Fellow。先后在美国加州大学洛杉矶分校、香港中文大学等机构工作或访问研究。长期从事面向视觉大数据的语义分析与智能学习相关领域的研究,曾任商汤科技执行研发总监/研究院副院长/杰出科学家,并于2018年联合UCLA朱松纯教授创立暗物智能科技。迄今在国际知名学术期刊与会议上发表论文200余篇,5篇论文成为ESI高被引论文。获得NPAR 2010 最佳论文奖, 2012 Google Faculty Award, 2014 Hong Kong Scholars Award,2016年 英特尔杯全国并行应用挑战赛金奖(指导教师), 2017年度 World's FIRST 10K Best Paper Diamond Award by IEEE ICME, 权威期刊Pattern Recognition年度最佳论文奖(论文2015年发表,该奖项2018年颁发),ICCV 2019最佳论文提名;指导学生获得ACM中国区优秀博士论文奖(每年度2名)、中国计算机学会优秀博士论文奖;获得2018CCF青竹奖;作为第一完成人获得2018年度吴文俊人工智能自然科学二等奖、2019年度中国图像图形学会科学技术一等奖。担任知名期刊IEEE Trans. Human-Machine Systems, Neurocomputing、The Visual Computer的副编辑/编委,曾担任IEEE CVPR、IEEE ICME、ACCV、ACM ICMR 等国际会议的领域/专题主席。

     

    报告摘要:近期,基于Diffusion生成式模型的多模态图像生成相关研究快速发展,并表现出令人惊艳的效果。尤其是,更加可控、快速适应新场景的个性化生成也受到了越来越多的关注。在本报告中,将围绕可控及个性化图像生成问题,探讨基于扩散模型的生成图像可控性和多样性。个性化生成方面,提出one-shot文生图的DreamArtist模型,实现在仅用一张图像就可以快速学习新概念,并个性化生成图像反映参考图中实体特征及风格等;可控生成方面,一方面从Layout控制角度,提出LAW-Diffusion模型学习多物体空间组合语义的Layout Embedding,结合动态引导机制引导扩散模型的生成过程;另一方面,提出基于大语言模型的语义能力的SUR-adapter,来增强现有的预训练文本编码器,从而解决所发现的图文不匹配问题,提升生成质量与可控性。最后,构建一套系统化、模块化、可拓展性强的Diffusion模型训练与推理一体化框架,为当前相关基于扩散模型的图像生成研究提供系统化工具。


         

        报告题目:Knowledge-Driven Multimodal Representation Learning



        

        谢伟迪,上海交通大学

        讲者简介:上海交通大学长聘轨副教授、博士生导师。2018年于英国牛津大学视觉几何组(VGG)获得博士学位,先后担任牛津大学博士后研究员,高级研究学者,获Oxford-Google DeepMind Scholarship,Magdalen Award (China-Oxford Scholarship Funds),Oxford Excellence Award,上海市领军人才,科技部“新一代人工智能”重大项目青年项目负责人。发表论文40余篇,Google Scholar引用超6300次,开源多个标准领域数据集合,包括VGGFace2, Voxceleb, VGGSound, MoCA,下载量超20万次。担任CVPR2023,NeurIPS2023领域主席。主要研究领域为大规模多模态表征学习。


     报告摘要:In recent years, foundation models have shown tremendous success. In essence, these models trained on web data have shown to encode a large amount of human knowledge. For example, ChatGPT, GPT4 are able to freely chat with humans on most of the topics. In this talk, I would like to introduce some of our recent work on exploiting knowledge within the foundation models, and expand the ability of existing computer vision systems towards open-vocabulary scenarios, for example, action recognition, object detection, segmentation, audio description for movies, etc.


     报告题目:基于大规模多模态扩散模型的文本到视频生成


        

        傅建龙 微软亚洲研究院


    讲者简介:傅建龙,高级研究经理,微软亚洲研究院,多模态计算组负责人。研究方向为多媒体内容理解和多模态感知计算。他已发表100多篇CCF A类论文,并在Google Scholar上获得万余次引用。担任IEEE消费电子(Consumer Electronics)技术委员会副主席,IEEE TMM编委,以及2019-2021 IEEE TPAMI客座编委。曾担任国际多媒体领域旗舰会议ACM Multimedia 2021和ACM ICMR 2021/2023组委会专题主席。荣获2022年ACM SIGMM Rising Star Award(每年一人),以及中国多媒体大会企业创新技术奖。指导的团队曾获得多个国际竞赛冠军,包括ACM Multimedia 2018最佳论文奖,并将研究成果成功转化为微软Windows、Office、Bing、Edge等实际产品。此外,他还出版了第一本人工智能创作的诗集《阳光失了玻璃窗》。


     报告摘要:本研究提出了一种创新的联合音视频生成框架,旨在提供引人入胜的视听体验,并实现高质量逼真的视频生成。我们引入了一种名为多模态扩散模型(MM-Diffusion)的新型方法,通过耦合的去噪自编码器实现联合音视频效果。与现有的单模态扩散模型相比,MM-Diffusion采用了一种序列化的多模态U-Net架构,通过设计实现了联合去噪过程。音频和视频子网络逐渐从高斯噪声中生成对齐的音视频对。为了确保模态之间的语义一致性,我们提出了一种基于随机移位的注意力模块,将两个子网络连接起来,以实现高效的跨模态对齐,并增强音视频的真实性。此外,我们还构建了迄今为止最大规模的文本-视频训练数据集HD-VG,包含1.3亿对样本,并首次训练了一个具有百亿参数规模的视觉生成模型VideoFactory-10B。实验证明,我们的方法在音视频联合生成和零样本任务(如视频到音频生成)方面优于现有模型。

 




版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn

京ICP备13000930号-4 京公网安备11010802032778号