ChinaMM 2023 专题论坛
跨媒体智能分析与推理
一、论坛简介
跨媒体分析推理是在对图像、视频、文本等模态组合信息的贯通计算与深度理解的基础上,实现搜索、问答、推荐等形式的内容交互,是网络内容管理与服务、公共安全等重要领域的重大共性关键技术。由跨域、异构、多源数据经过复杂耦合而成的跨媒体语义关联性和时空涌现性空前复杂,如何应对跨媒体知识结构复杂性和推理过程不确定性等挑战性问题,实现跨媒体分析推理从浅层语义到深层知识和更高智能水平的跨越,是发展跨媒体类人智能技术系统的必由之路。近来,相关理论、方法和应用研究呈现快速发展的趋势,相关技术在各行各业也取得了不同程度的应用实践。尤其是近来以ChatGPT、DALLE-2等为代表的语言及多模态大模型陆续发布,显著提高了跨媒体内容理解深度和人机交互水平。这些现象级大模型有哪些优势和不足?是否已颠覆现有跨媒体分析推理及相关领域的研究范式?下一步跨媒体分析推理方面的研究应该如何规划和开展?这些问题都是相关领域的研究者们共同关注的热点问题。
本专题论坛围绕跨媒体智能分析推理及多模态(通用)人工智能的发展现状和趋势,邀请多位领域专家和知名学者介绍相关研究进展,并围绕数据+知识协同的跨媒体分析推理、多模态预训练大模型、跨模态细粒度、结构化理解与定位等主题开展深入探讨,汇聚专家观点,以期形成若干共识和建议。
二、论坛议程
时长:4小时
形式:论坛分为主题报告环节和圆桌讨论环节。其中,主题报告环节每位讲者介绍25分钟,提问10分钟;茶歇15分钟,圆桌讨论环节约为50分钟。
三、组织者
黄庆明,中国科学院大学
个人简介:中国科学院大学讲席教授、博士生导师,国家杰出青年科学基金获得者,百千万人才工程国家级人选, IEEE Fellow。主要研究领域为多媒体分析、计算机视觉、机器学习等,累计发表CCF-A类会议及IEEE/ACM汇刊论文200余篇。承担科技创新2030-新一代人工智能重大项目、国自然基金重点项目、973课题、863课题等重大项目,获得吴文俊人工智能自然科学一等奖等奖励。
卢湖川,大连理工大学
个人简介:大连理工大学创新学院院长,信息与通信工程学院教授、博士生导师,国家杰出青年基金获得者,科技部中青年创新领军人才,辽宁省特聘教授,IEEE Transaction on Cybernetics 和 IEEE Transactions on Circuits, Systems for Video Technology副主编。主要从事图像处理与理解、计算机视觉、模式识别和机器学习方面的教学与科研工作,迄今已在国际期刊/国际会议上发表学术论文200余篇,其中计算机学会(CCF)推荐A类期刊和会议100余篇,获CVPR2020 Best Paper Award Nominee, ICCV2011 Most Remembered Poster,ICIP2012 Best Student Paper Award Finalist, IET Image Processing Best Paper Award,Google Scholar 引用36000余次。
唐金辉,南京理工大学
个人简介:南京理工大学计算机科学与工程学院二级教授、科研院副院长, IAPR Fellow。从事多媒体分析和计算机视觉的研究,发表ACM/IEEE汇刊论文和A类会议长文150余篇,被引用近20000次,H-index为71,获著名国际会议最佳(学生)论文奖8次;主持新一代人工智能重大项目课题、青年973项目、基金重点项目等;曾获国家自然科学二等奖1次、省部级一等奖3次、教育部自然科学二等奖2次;曾担任IEEE TKDE、TNNLS、TMM、TCSVT等多个期刊编委。
崔鹏,清华大学
个人简介(200字):清华大学计算机系长聘副教授,博士生导师。研究兴趣聚焦于因果启发的稳定学习和决策机制、大规模网络表征学习等。在多媒体及数据挖掘领域顶级国际会议发表论文100余篇,先后5次获得国际会议或期刊论文奖,并先后两次入选数据挖掘领域顶级国际会议KDD最佳论文专刊。担任IEEE TKDE、ACM TOMM、ACM TIST、IEEE TBD等国际期刊编委。曾获得国家自然科学二等奖、教育部自然科学一等奖、CCF-IEEE CS青年科学家奖、ACM杰出科学家。
王树徽,中国科学院计算技术研究所
个人简介:中国科学院计算技术研究所研究员、博士生导师。主要研究方向为跨媒体理解与知识推理、机器学习等,累计发表CCF-A类会议及IEEE/ACM汇刊论文80余篇。多次担任ACM Multimedia, IJCAI, AAAI等领域顶级国际会议领域主席,担任数十个高水平国际期刊和顶级会议的审稿人。获得国家自然科学基金委优青资助,获得吴文俊人工智能自然科学一等奖等奖励。
四、报告嘉宾
报告1:数据-知识协同驱动的跨媒体分析与推理
彭宇新,北京大学
讲者介绍:北京大学二级教授、博雅特聘教授、国家杰出青年科学基金获得者、国家万人计划科技创新领军人才、科技部中青年科技创新领军人才、863项目首席专家、中国人工智能产业创新联盟专家委员会主任、中国工程院“人工智能2.0”规划专家委员会专家、北京图象图形学学会副理事长、中国图象图形学学会会士、副秘书长、提名与奖励委员会副主任。主要研究方向为跨媒体分析、计算机视觉、机器学习、人工智能。以第一完成人获2016年北京市科学技术奖一等奖和2020年中国电子学会科技进步一等奖,2008年获北京大学宝钢奖教金优秀奖,2017年获北京大学教学优秀奖。主持了863、国家自然科学基金重点等30多个项目,发表论文170多篇,包括ACM/IEEE Trans和CCF A类论文80多篇。多次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频样例搜索比赛,均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任IEEE TMM、TCSVT等期刊编委。
报告摘要:图像、视频、文本等跨媒体数据在人类社会、物理空间和信息空间中交叉融合,全面形象地表达综合性知识并反映个体和群体行为。跨媒体分析与推理对于提高计算机对客观世界概念、规则及其演化的深层感知、认知与综合归纳的能力至关重要。然而,现有方法多以数据驱动为主,无法充分利用已有的人类知识,导致模型缺少泛化性和可解释性,难以处理复杂的推理决策问题。其中关键的科学问题是如何将数据驱动与知识驱动相结合,提高计算机对客观世界规律的综合归纳与分析推理的能力。本报告将介绍我们在数据-知识协同驱动的跨媒体分析与推理的近期工作进展,并对未来发展方向及趋势进行简要讨论与展望。
报告2:多模态预训练模型的研究与应用
刘静,中国科学院自动化研究所
讲者介绍:中科院自动化所研究员/博导,中国科学院大学岗位教授,国家优青获得者。研究方向多模态分析与理解,紫东太初大模型。曾获2019年图像图形学会科学技术二等奖,2022年世界人工智能大会“卓越人工智能引领者奖SAIL”。承担或参与多项国家自然科学基金项目、国家973、国家基金重大研究计划、国家重点研发等。已发表高水平学术论文150余篇,谷歌学术引用万余次,SCI他引次数3000+次,其中有三篇被ESI列为Top1%高被引论文。在视觉计算相关领域的多项国际学术竞赛中荣获冠军十余项。
报告摘要:近年来,从预训练模型到预训练大模型,从文本、音频、视觉等单模态大模型,到现在的图文、图文音等多模态预训练大模型,无论在学术界还是企业界预训练模型都得到了广泛关注与爆发式发展。多模态预训练通过联合图文音等多模态内容进行模型学习,其发展在多模态理解、搜索、推荐、问答,语音识别与合成,人机交互等应用领域中具有潜力巨大的市场价值。本报告主要包含三方面内容:分析多模态预训练模型的重要性与必要性;回顾当前多模态预训练的最新研究进展;多模态预训练模型主要应用场景与未来展望。
报告3:多媒体内容细粒度分析与推理
李泽超,南京理工大学
讲者介绍:南京理工大学计算机科学与工程学院/人工智能学院教授、博士生导师,“万人计划”青年拔尖人才,“社会安全信息感知与系统”工信部重点实验室副主任,分别于2008年和2013年毕业于中国科学技术大学和中国科学院自动化研究所。研究兴趣主要是媒体智能分析、计算机视觉等。发表ACM/IEEE Transactions和CCF A类会议论文70余篇;入选2022年全球前2%顶尖科学家,2020-2021年连续2年入选爱思唯尔中国高被引学者;获得江苏省科学技术一等奖2项、中国电子学会自然科学一等奖1项等;主持科技创新2030“新一代人工智能”重大项目课题、国家自然科学基金联合基金重点项目、江苏省杰出青年基金等;担任IEEE TNNLS、Information Sciences等期刊编委。
报告摘要:图像视频大数据智能分析与识别在多种实际应用中具有至关重要的作用,比如无人驾驶、网络空间内容安全以及社会公共安全等。然而实际应用中多媒体内容类别粒度多样。为此,我们研究了开放环境下多媒体内容细粒度分析与推理问题,主要是小样本细粒度识别、弱监督多媒体细粒度分析推理、细粒度哈希等,提出了基于知识迁移的小样本识别、深度协同因子分解模型、基于区域定位哈希的细粒度图像检索、基于注意力金字塔特征的细粒度小样本识别方法等。最后介绍一些相关的实际应用。
报告4:跨模态时空定位
李亮,中国科学院计算技术研究所
讲者介绍:中科院计算所副研究员,研究方向为计算机视觉和跨媒体智能等,发表TPAMI,IJCV等汇刊和CCF-A类论文50余篇,获国际会议最佳论文奖2次,5项工作入选ESI高被引论文。主持/参与科技部科技创新2030重大项目、973课题、NSFC应急管理重点项目、NSFC重点和面上项目等10余项,参与组织7次IEEE/ACM国际会议和5次国内会议,期刊JCST青年编委,ACM SIGMM中国分会高校合作负责人,入选中国科学院青年人才项目,获2020年吴文俊人工智能自然科学一等奖。与新华社一起起草《机器生产内容自动化分级》标准,相关成果在华为、淘宝、大华、华数传媒等公司使用,服务于2022北京冬奥会等重要任务。
报告摘要:计算机视觉和自然语言处理是人工智能的两大分支,它们专注于在视觉和语言上模拟人类智能。两者都用于描述客观世界,只是表述形式不同,存在相当密切的关联,现实世界的交互问题往往是同时涉及视觉和语言等多种模的。本次报告分享不同模态间在时间和空间上的定位,包括语言到图像的定位、语言到视频的定位、音频到视频的定位。此外,也将介绍在弱监督和开放域等复杂场景下的跨模态定位工作。
报告5:动态场景感知与结构化理解
范鹤鹤,浙江大学
讲者介绍:浙江大学计算机学院百人计划研究员/博导,国家海外优青获得者,研究方向包括视频理解、视觉-语言跨模态应用和生物信息学智能。曾担任Intelligent Computing客座编辑和ICIP领域主席。已发表TPAMI、ICLR、CVPR等期刊和会议论文30余篇,其中ESI高被引3篇。在计算机视觉领域的国际竞赛中获得冠军两项。
报告摘要:视频是一种广泛和丰富的视觉信息来源。然而,时间维度的引入使得计算机对动态场景的理解变得复杂。首先,针对基于图像的传统视频,本报告将从长视频和短视频两个角度介绍相关研究成果,即对长视频中关键内容的捕捉和对短视频中运动信息的理解。其次,针对基于点云的三维视频,将着重介绍点云视频中的时空结构保持和时空结构编码两大挑战与解决方案。最后,将简单介绍点云视频技术在蛋白质三维结构理解中的应用。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn