青年专题论坛1:多媒体智能编码、感知与表示
时间:2020年9月19日下午15:30至17:20
地点:会场1(二楼多功能24号厅)
组织人:姜求平、丛润民
主持人:姜求平、丛润民
结构学习方法及其视觉应用
主讲嘉宾:李玺 浙江大学
摘要:本报告主要围绕数据驱动的人工智能学习方法,进行大规模图像/视频数据的结构学习,从目标视觉感知特性、视觉特征表达、深度学习器构建机制、高层语义理解等多维度视角进行了深入剖析,并引入了大规模视觉结构学习所涉及的主要研究问题和技术方法。然后系统地回顾了视觉结构表达和学习领域的不同发展阶段,介绍了近年来我们利用视觉结构学习进行视觉语义分析和理解所做的一系列代表性的研究工作及其医学影像处理实际应用。
个人简介:
李玺,教授,博导,浙江大学计算机学院,浙江大学-每日互动数据智能研发中心主任,国家千人计划青年项目入选者,中国图象图形学会理事,浙江省杰出青年科学基金获得者,浙江省特聘专家。主要从事计算机视觉、模式识别和机器学习等领域的研究和开发。在国际权威期刊和顶级学术会议发表文章150余篇。拥有多篇ESI高被引论文,担任国际计算机视觉领域顶级会议CVPR 2020和ECCV 2020的领域主席(Area Chair),国际多媒体领域顶级国际会议ACM MM 2020的领域主席(Area Chair),国际神经信息处理会议ICONIP 2020的领域主席(Area Chair),国际计算机视觉领域顶级会议ICCV 2019的领域主席(Area Chair), 人工智能领域顶级会议IJCAI 2019和2021的领域主席(SPC),国际模式识别大会ICPR 2018和2020的领域主席(Area Chair)。担任神经网络和学习系统领域顶级期刊IEEE Transactions on Neural Networks and Learning Systems的Associate Editor(2019.1—),担任图像视频处理领域顶级期刊IEEE Transactions on Circuits and Systems for Video Technology的Associate Editor(2019.1—),担任神经计算领域知名国际刊物Neurocomputing和Neural Processing Letters的Associate Editor。获得两项最佳国际会议论文奖(包括ACCV 2010和DICTA 2012),一项最佳学生论文奖(ACML 2017),一项2019年度中国图象图形学报最佳封面文章奖,以及一项ICIP 2015 Top 10%论文奖。另外分别获得两项中国北京市自然科学技术奖(包括一等奖和二等奖),以及一项中国专利优秀奖。
Machine Learning based Video Coding Optimization
主讲嘉宾: 张云 中国科学院深圳先进技术研究院
摘要:Due to the rapid growth of video applications and boosting demands for higher quality video services, video data volume has been increasing explosively worldwide, which has been the most severe challenge for multimedia computing, transmission and storage. Video coding by compressing videos into a much smaller size for transmission or storage is one of the key solutions; however, its development has become saturated to some extent while the compression ratio continuously grows in the last three decades. Machine leaning algorithms, especially those employing deep learning, provide new opportunities for further upgrading video coding algorithms. In this talk, our recent works on machine learning based video coding optimizations will be introduced from two key aspects, including low complexity and high efficiency optimizations. Firstly, the mode decision problems in video coding is modelled as classifications and solved using machine learning tools, including SVM and reinforcement learning. Then, the optimal parameter determination scheme is presented to minimize the coding complexity while maintaining the coding efficiency. Secondly, the prediction problems such as intra/inter prediction, view synthesis prediction and chroma prediction are investigated and perfectly solved by using dictionary learning and deep learning tools, including Convolutional Neural Networks (CNN), Generative Adversarial Network (GAN). Experimental results are also given to show the outstanding performances of the proposed learning-based coding optimizations.
个人简介:
Dr. Yun Zhang received the Ph.D. degree in Computer Science from Institute of Computing Technology (ICT), Chinese Academy of Sciences (CAS), Beijing, China, in 2010. He is now with the Shenzhen Institutes of Advanced Technology (SIAT), CAS, as Full Professor. His research interests are in the field of multimedia communications and visual signal processing, including video compression, visual perception, virtual reality, machine learning. Dr. Zhang has published over 100 high quality scientific research papers, more than 30 of them are published on Top IEEE Transactions, such as IEEE Trans. Image Process., IEEE Trans. Broadcast., IEEE Trans. Circuits Syst. Video Technol., IEEE Trans. Indust. Electronics, IEEE Trans. Indust. Informatics. In addition, he has filed over 30 CN / US /PCT patents on visual signal processing and 20 of them are granted. He is a Senior Member of IEEE and serves as Associate Editor of IEEE Access and Electronic Letters.
基于关系挖掘的多模态知识表示
主讲嘉宾:鲍秉坤 南京邮电大学
摘要:报告主要探索关系挖掘任务中的多模态知识表示问题,包括基于文本模态与视觉模态的多模态知识表示,及多模态表示在关系挖掘任务中的应用方面所做的一些工作与成果。在多模态知识表示方面,将介绍如何将不同模态的数据投影到公共的向量空间获取统一的知识表示,如何对抽象的关系概念进行多模态表示,以及如何构建多模态知识图谱;在关系挖掘方面,将介绍跨模态的关系检索,以及结合语义限制的图像关系预测等任务。
个人简介:
鲍秉坤,南京邮电大学通信与信息工程学院教授、博士生导师。江苏省双创人才。在跨媒体检索与搜索、社交媒体推荐、社会事件检测、人脸识别、图像分类与理解、视频分析等方向取得了部分重要的成果,并提出了一系列有效的解决方案,用来处理大规模、多变化的多媒体信息感知、分析与处理。获得多媒体领域顶级期刊ACM TOMM 2016年度唯一的最佳论文奖,多媒体领域重要期刊IEEE Multimedia 2017年度唯一的最佳论文奖,国际会议MMM 2019最佳论文。获得2018年度电子学会科学技术一等奖。
基于影像的质量感知建模:从视觉损伤估计到环境污染监测
主讲嘉宾:顾锞 北京工业大学
摘要:视觉损伤估计是多媒体处理领域的重要方向,环境污染监测关系着社会稳定、公众健康以及经济可持续增长。在视觉损伤估计方面,报告人首先基于影像内容复杂度,系统融合全局结构退化和局部结构退化,估计互联网屏幕图像的视觉损伤程度;然后利用局部自回归算子对几何畸变敏感的先验特性,提出了基于大数据统计模型的DIBR 图像视觉损伤估计算法。在环境污染监测方面,报告人首先使用对PM2.5 敏感的空间域和变换域熵特征建立海量影像大样本统计模型,通过度量待测影像与预先建立的统计模型间的距离估计大气PM2.5 浓度;然后分别设计并融合善于捕捉烟尘图像纹理和轮廓信息的两个子神经网络,构建基于双通道神经网络的烟尘检测模型。
个人简介:
顾锞,北京工业大学信息学部人工智能与自动化学院教授、博导、北京市特聘专家,智能感知与自主控制教育部工程研究中心副主任。研究方向主要包括环境质量感知和图像质量评价,近五年发表 IEEE 汇刊论文 57 篇,获 TMM 最佳论文(一作)、中国电子学会优博,担 任多个 SCI 期刊编委,入选中国科协青托人才、北京市青年拔尖人才、青年海聚人才。
青年专题论坛2:视觉情感分析进展
时间:2020年9月20日下午13:30至15:20
地点:会场1(二楼多功能24号厅)
组织人:吴金建、方玉明
主持人:吴金建
图像感知评价:从质量到美学
主讲嘉宾:李雷达 西安电子科技大学
摘要:视觉质量和美学评价是图像的两种重要属性,在摄影摄像、图像增强、图像恢复、广告设计等众多领域都有广阔的应用需求,已经成为近年来视觉内容理解中的研究热点。本报告将重点介绍我们近年来在无参考图像/视频感知质量评价、大众化/个性化图像美学质量评价方面的研究进展。在感知质量评价方面,重点介绍面向特定应用场景的质量评价和通用无参考型图像质量评价;在美学质量评价方面,主要介绍融合性格特质的个性化图像美学评价和基于元学习的个性化图像美学评价,重点探讨美学评价中的用户个性特征挖掘和美学评价元知识表达。
个人简介:
李雷达,博士,西安电子科技大学人工智能学院教授、博士生导师。 2004 年和 2009 年分别获西安电子科技大学学士和博士学位; 2014 年 1 月至 2015 年 1 月,新 加坡南洋理工大学访问学者; 2016 年 7 月至 2017 年 7 月,新加坡南洋理工大学高级研究员。 2009 年 7 月至 2019 年 7 月,工作于中国矿业大学,任讲师、副教授、教授。入 选陕西省青年千人计划、西安电子科技大学"华山学者"学术菁英人才、江苏省“青蓝工程”中青年学术带头人、江苏省“六大人才高峰”高层次人才、江苏省“企业创新岗”特聘专家等。现为国际期刊 Journal of Visual Communication and Image Representation 和 EURASIP Journal on Image and Video Processing 副编辑,中国人工智能学会会刊 CAAI TRIT 青年编委,VALSE 第五届执行 AC, CCF 多媒体专委会委员。主要研究方向为图像与视频质量评价、视觉情感分析、图像信息安全等;在 IEEE TIP、 TCYB、 TMM、 TCSVT、 TIFS、 TIE、 CVPR、 ACM MM、 IJCAI 等国内外期刊和会议上发表论文 100 余篇, Google 引用 2500 余次,一篇论文入选 ESI 热点论文,两篇论文入选 ESI 高被引论文;主持国家自然科学基金项目 3 项、江苏省自然科学基金、腾讯公司委托项目等各类项目 20 余项;获省部级科研成果奖励 3 项,获国家发明专利 12 项。在视频质量评价方向的研究成果应用于腾讯会议中。
视觉信息紧凑表达:从信号到感知
主讲嘉宾:王诗淇 香港城市大学
摘要:在人工智能时代,视频数据的高效表达逐步从信号层面的信息处理向语义层面的智能感知逐步过渡。随着5G时代的到来,视频数据在视频广播、智能安防、智慧城市、智能制造中扮演着越来越重要的角色。本报告将以视频云计算中视觉信息紧凑表达为核心,以智能感知为理论基础,从三个方面讨论视觉信息紧凑表达的方法。首先,我们探讨视觉特征的质量评价模型,从而为深度视觉特征紧凑表达奠定基础。其次,我们介绍基于视觉特征-纹理的可伸缩编码框架,以视觉云计算的需求出发,实现高效的视觉信息表达。最后,我们介绍基于视觉感知流行度的压缩方法,基于最终可用度提升整体视觉信息表达效率。
个人简介:
王诗淇,博士,香港城市大学计算机科学系助理教授,博士生导师。2014年1月毕业于北京大学,获计算机应用技术博士学位,从事多媒体信号质量评价、压缩、处理及分析方面的研究。作为项目负责人主持了包括香港研究资助局杰出青年学者计划(Early Career Scheme),创新及科技基金(Innovation and Technology Fund),深圳科技创新委员会基础研究自由探索在内多项项目,在国内外重要期刊和CCF-A类会议上发表/接收论文100余篇。获得2019年IEEE ICME最佳论文奖,2019年IEEE VCIP国际会议最佳论文奖,2018年IEEE Multimedia国际期刊最佳论文奖,2017年PCM国际会议最佳论文奖,合作获得2018年IEEE ICIP国际会议最佳学生论文奖等多个奖项。相关工作获得谷歌学术引用3300余次。
小样本人脸表情生成研究
主讲嘉宾:付彦伟 复旦大学
摘要:情感计算和认知理论在现代人机交互场景中已经得到了广泛的应用,而人脸作为人类最显著、最易获得的特征,一直受到研究者们的广泛关注。由于人类具有丰富的情感和发达的肌肉组织,在真实场景中人脸往往呈现出许多细粒度的微表情。然而,收集和注释大量的面部图像是非常耗时的,其中微表情的分类标注也需要心理学家的指导和帮助。据我们所知,现有的表情数据集仅局限于几种基本的面部表情,并不足以支持研发成功的复杂人机交互系统。为此,我们用了近一年的时间来收集相关数据,并在心理学家的帮助下进行标注核验,最终提出了一个全新的细粒度人脸微表情数据库F2ED。它包含来自119个人的超过20万张图片,其中标注有54种微表情。据我们所知,这是第一个用细微的情绪变化来识别面部微表情的大型数据集。考虑到现实场景中广泛存在的数据分布不均匀和样本量不足的现象,我们利用F2ED进一步评估了小样本表情学习任务,即只给出很少的训练实例来识别面部微表情。这些任务通过模拟人类的表现,从少量样本中学习具有健壮性和通用性的特征表示。为了解决这种小样本任务,我们提出了一个全新的框架——协同生成对抗网络(Comp-GAN)来学习生成高质量的面部图像,从而增加了小样本表情类的数据。Comp-GAN是由两个生成器构成:一个用于编辑表情,另一个用来改变姿态;因此,在保持身份信息的一致性的同时,模型可以根据指定的姿态和表情信息生成大量逼真的高质量的面部图像。我们在F2ED和现有的面部表情公开数据集上均进行了大量的实验,以验证F2ED作为面部表情识别预训练数据的有效性,以及Comp-GAN在提升小样本识别任务性能的高效性。
个人简介:
付彦伟,博士,复旦大学青年研究员,上海高校特聘教授 (即东方学者)、国家青年千人计划学者,2011--2014年在英国伦敦大学玛丽皇后学院攻读并获得博士学位, 2015.01-2016.07在美国匹兹堡迪士尼研究院任博士后研究员,曾获2017年ACM China Multimedia新星奖, IEEE ICME 2019 最佳论文奖。主要研究领域包括零样本、小样本识别、终生学习算法等。其已在IEEE TPAMI、IEEE TIP、CVPR、ECCV、ICCV等计算机视觉与模式识别、机器学习、多媒体领域顶级国际期刊及会议发表论文共60篇。已申请的中国专利20多项(其中已授权10项),已授权美国专利3项,并曾获得Google优秀学生奖学金、国家自费留学生奖学金等奖项。担任多个国际期刊、学术会议长期审稿人及程序委员会委员(如IEEE TPAMI、IJCV、ACM MM、NIPS、ICCV等)。
非受限视觉情感计算
主讲嘉宾:杨巨峰 南开大学
摘要:情感是视觉语义的重要组成部分,分析人面对视觉刺激物的情感反馈,有助于在广告推荐、观点挖掘、艺术创作、美学评估、图像检索等领域的实际应用。从心理学情感模型出发,以非实验室环境下采集的视觉内容为研究对象,介绍我们在情感区域检测、单标签情感分类和标签分布预测等方面的系列工作,初步解决了视觉情感主观性、模糊性的难题。
个人简介:
杨巨峰, 博士, 南开大学教授、博士生导师、计算机科学与技术系副主任,2015-2016 年在美国加州大学默塞德分校视觉与学习实验室从事研究工作。是中国计算机学会计算机视觉专委会副秘书长,多媒体技术专委会通讯委员,中国计算机视觉大会(CCCV 2017)组织委员会主席。研究方向包括计算机视觉、机器学习、多媒体计算,已发表 TPAMI/TIP/TMM/CVPR/ICCV/MM 等论文 30 余篇。
青年专题论坛3:智能音频分析与生成
时间:2020年9月20日下午13:30至15:20
地点:会场2(二楼多功能25号厅)
组织人:张勤、叶龙、蔡娟娟
主持人:叶龙
复杂声环境下基于有监督深度学习的音源分离
主讲嘉宾:张晓雷 西北工业大学
摘要:复杂声环境下的音源分离是音频分析与处理的难点和前沿科学问题。根据音源是否是语音,可以分为语音分离、音频场景分析两个基本问题。基于深度学习的语音分离和音频场景分析可以从大量历史数据和有标记数据中学习到有效的音源表示,突破了传统方法在复杂声学环境下的性能瓶颈,是当前的研究前沿。在这方面,本报告将以与说话人无关(speaker-independent)的多说话人语音分离任务为主介绍近年来语音分离的进展,以弱标记音频事件检测和分离任务为主介绍近年来音频场景分析的进展。
个人简介:
张晓雷,西北工业大学教授,博士生导师。清华大学博士、美国俄亥俄州立大学博士后。从事声信号与语音处理、机器学习、人工智能的研究工作。在Neural Networks、IEEE TPAMI、IEEE TASLP、IEEE TCYB、IEEE TSMCB等期刊、会议发表论文40余篇。合著译著1部。承担国家重点研发计划、国家自然科学基金重点项目等10余项。获得亚太信号与信息处理杰出讲者称号、UbiCom 2019国际会议最佳论文奖、北京市科学技术一等奖等。入选某国家级青年人才计划。研究成果在国内三大电信运营商、金融、交通、保险等行业的20余家主流企业应用。目前/曾经担任Neural Networks, EURASIP Journal on Audio, Speech, and Music Processing等多个国际期刊的编委,担任中国计算机学会、自动化学会等专委会的委员。
基于序列建模与表征解耦的话者转换
主讲嘉宾:凌震华 中国科学技术大学
摘要:话者转换(Voice Conversion)指的是在不改变文本内容的前提下修改源话者语音,使其个性特征接近目标话者。声学模型实现从源话者声学特征到目标话者声学特征的映射,是话者转换的关键技术模块。传统逐帧转换的声学模型存在对帧间长时相关性建模能力不足、无法有效调整语速等问题。因此,我们设计实现了序列到序列的话者转换神经网络模型,提出了前向注意力机制,保证了模型对于声学特征长序列建模的稳定性,取得了优于传统逐帧建模方法的转换语音自然度与相似度。进一步,针对源-目标训练数据文本不同的非平行场景,我们提出了一种基于文本-话者表征解耦的话者转换声学建模方法,该方法通过引入文本识别编码器与话者编码器、设计对抗学习损失函数,以及利用多人海量背景数据,实现了对于语音信号中文本和话者表征的有效解耦与灵活组合,显著提升了非平行数据情况下转换语音的自然度和相似度,取得了与平行数据情况下相当的性能。
个人简介:
凌震华,中国科学技术大学信息学院副教授,博士生导师。主要研究领域包括语音信号处理和自然语言处理。主持与参与多项国家自然科学基金、国家重点研发计划、安徽省语音专项等科研项目;已发表论文100 余篇,论文累计引用3600余次;获国家科技进步奖二等奖和IEEE信号处理学会最佳青年作者论文奖。在Blizzard Challenge国际语音合成技术评测、Voice Conversion Challenge国际语音转换技术评测等活动中多次获得测试指标第一名。现为电气电子工程师学会(IEEE)高级会员、中国计算机学会语音听觉与对话专业组委员、中国语言学会语音学分会学术委员会委员、全国人机语音通讯学术会议常设机构委员会委员。2014-2018年任IEEE/ACM TASLP期刊副编辑。
双耳效应对较优耳信噪比和语言传输指数的影响
主讲嘉宾:余光正 华南理工大学
摘要:语言传输指数(STI)是预测和评估说话人到聆听者语言信息传递损失的重要指标。在室内声学环境下,声学传输特性(如室内混响)和信噪比构成影响STI的重要因素。对于满足线性时不变系统的稳定声学环境,可基于房间脉冲响应间(RIR)接计算获得STI。如果考虑聆听者对声场产生的破坏,则需要考虑双耳效应的影响,即借助于双耳房间脉冲响应(BRIR)准确计算STI。已有工作基本都是个别声源方向和距离条件下的分析结果,而对于声源和聆听者在不同位置条件下(方向和距离)的STI空间分布规律方面,未见到完整的分析和报道。因此,本文关注双耳效应对STI产生的影响。为简化问题,假定说话人总是对着聆听者(即不考虑说话人语音辐射指向性的影响),因此仅考虑聆听者和说话人相对位置关系对双耳效应、进而对STI产生的影响。相关结果可为复杂声学环境和多说话人条件下研究目标语言可懂度提供参考依据。
个人简介:
余光正,华南理工大学物理与光电学院教授,博士生导师。主要研究领域包括多媒体声信号处理和空间听觉。已主持2项国家自然科学基金、3项广东省自然科学基金(其中1项重点项目);参与科技部重点研发计划和广东省科信委科技计划等重大项目多项。2011 年入选广东高校优秀青年创新人才培养计划;2012 年被评为“千百十人才培养工程”校级培养对象;2014 年入选广东省优秀青年教师培养计划。2018年,作为主要成员参与的“空间听觉与虚拟听觉重放的关键技术及应用”获得教育部科技进步二等奖。在 JASA、JAES、声学学报等国内外重要期刊发表论文 50 余篇,已申请和授权的发明专利 10 余项。曾在英国伦敦大学玛丽皇后学院数字音乐中心(C4DM)、香港科技大学、美国伦斯勒理工学院等单位做访学学者。目前兼任中国声学学会产业促进委员会委员,中国电子学会声频分会委员,广州电子音响行业协会专家委员会副主任委员等职。
历史电影音频修复中的可控语音合成
主讲嘉宾:王雨田 中国传媒大学
摘要:影视资料是人类文明发展历程的珍贵载体,具有特殊的历史意义与文物价值。然而早期的影视与音频资料由于历史、技术等原因,存在各种损伤,亟待使用技术手段对这些珍贵历史音频文献进行数字化保存。对于其中有长时间损毁的音频片段,我们提出一种基于离散隐空间编码的语音合成系统来合成需要的语音片段进行插补。该模型可以从参考音频中学习语音韵律,并将输入文本转换为与参考语音具有相似韵律但与内容和说话人无关的语音。此外,我们采用离散隐变量来表示参考语音的各种声学特征,并使得音高,语速,音色等抽象语音特征自动的解耦到这些离散隐变量上,从而可以通过改变这些隐变量的值来方便的控制合成语音的韵律。实验结果证明了我们模型的有效性,同时其语音转换的合成效果达到了目前最好的水平。
个人简介:
王雨田,中国传媒大学媒介音视频教育部重点实验室副研究员,硕士生导师。主要研究领域包括语音信号处理和深度学习算法。主持并参与多项国家自然科学基金、国家科技支撑计划等科研项目;已发表论文20 余篇,专利5项。曾在香港科技大学、美国伦斯勒理工学院等单位做访学学者。
青年专题论坛4:视觉与语言相结合的跨媒体智能分析及应用
时间:2020年9月20日下午15:30至17:20
地点:会场1(二楼多功能24号厅)
组织人:于静、梅涛、秦曾昌
主持人:于静
Richer and Deeper: Vision and Language Understanding with Richer Visual Content and Deeper Non-visual Knowledge
主讲嘉宾:王鹏 西北工业大学
摘要:In this talk, I will introduce two recent works on vision and language understanding. The first one is a question-conditioned graph attention network for TextVQA, which is capable of reasoning over a heterogenous graph with text and object nodes. The second one is a dataset and pipeline that performs referring expression understanding using external commonsense knowledge. By incorporating more visual and non-visual information, we see an increasingly comprehensive visual reasoning ability.
个人简介:
王鹏,西北工业大学计算机学院教授,分别于 2004 和 2011 年在北京航空航天大学获得学士和博士学位; 2012 年至 2016 年在澳大利亚阿德莱德大学从事科研工作; 2017 年入选陕西省“青年百人”计划,并加入西北工业大学计算机学院担任教授、博导,同时担任空天地海一体化大数据应用技术国家工程实验室主任助理。本人长期致力于计算机视觉、机器学习和人工智能等领域的研究。近年来在 TPAMI、 IJCV、 TIP、 CVPR、 ICCV、 AAAI 等 CCF A 类期刊会议发表论文 20 余篇。
Referring Expression Comprehension
主讲嘉宾:刘偲 北京航空航天大学
摘要:指代表达理解(Referring Expression Comprehension)是视觉与语言交叉领域中的热门研究课题,包含 localization 和 segmentation 两个分支,对于智能机器人和交互式图像编辑等实际应用有重要意义。 Localization 分支的主流方法采用两阶段式架构,模型复杂且速度受限,而 segmentation 分支的主流方法聚焦于多模态特征融合,缺乏利用语言信息进行上下文建模和推理的能力。在本次讨论中,会尝试对上述问题提出针对性的解决方法,提升模型对于 referring expression 的理解能力。
个人简介:
刘偲,北航计算机学院副教授、博导。其研究方向是跨模态多媒体智能分析,包括自然语言处理(NLP)和计算机视觉(CV)。共发表了 CCF A 类论文 40 余篇,其研究成果发表于 TPAMI、 IJCV、 TIP、 CVPR、 ICCV 和 ACM MM 等。Google Scholar引用 4000+次。 2017 年入选中国科协青年人才托举工程, 2017 年获 CCF-腾讯犀牛鸟专利奖。另外,她获 CCF A 类会议 ACM MM 2012 最佳技术演示奖,ACM MM 2013 最佳论文奖。2017 年获 CVPR Look Into Person Challenge Human Parsing Track 冠军,2019 年获得 ICCV Youtube-Video Object Segmentation 竞赛冠军。主办了 ECCV 2018 和 ICCV 2019‘Person in Context’ workshop。
视觉-语言问题中的深层推理研究
主讲嘉宾:吴琦 澳大利亚阿德莱德大学
摘要:视觉-语言(Vision-and-Language)问题是近年来非常热门的一个研究课题,这个领域内比较主流的问题有 Image Captioning, Visual Question Answering 以及 Referring Expression. 目前解决这些问题的主流方法基本是基于深度学习,依靠观察大量数据“记忆”出一个从输入到输出的对应关系。而我们认为这些问题的价值在于如何让机器懂得“推理”,这个报告中,我会通过介绍我们近期的几个工作,来阐述如何通过改变任务目标,模型架构,测试标准等方法,来真正体现视觉-语言问题中的深层推理问题与挑战。
个人简介:
吴琦,澳大利亚阿德莱德大学助理教授,澳大利亚国家杰出青年基金项目获得者 (Australian Research Council DECRA Fellow),澳大利亚机器人视觉研究中心(ACRV) vision-language 课题组组长,澳大利亚科学院罗素奖获得者。吴琦博士于 2015 年在英国巴斯大学获得博士学位,致力于计算机视觉领域研究,尤其关注于计算机视觉-自然语言相关领域的研究。吴琦博士在 CVPR、ICCV、ECCV、AAAI、IJCAI、TPAMI 等多个顶级国际会议和期刊发表论文四十余篇,吴琦博士亦担任 TPAMI、IJCV、TIP、CVPR、NIPS、ACL等顶级学术期刊会议审稿人。
Few-Shot Image and Sentence Matching via Aligned Cross-Modal Memory
主讲嘉宾:黄岩 中科院自动化所
摘要:The task of image and sentence matching has attracted much attention recently, and many effective methods have been proposed to deal with it. But its intrinsic few-shot problem, i.e., uncommonly appeared instances and words in images and sentences cannot be well associated, is usually ignored and seldom studied,which has become a bottleneck for further performance improvement in real applications. This talk will introduce our recent work on the few-shot image and sentence matching, by proposing an Aligned Cross-Modal Memory (ACMM) model to handle it.
个人简介:
Yan Huang is an associate professor at the Institute of Automation, Chinese Academy of Sciences (CASIA). His research interests include computer vision and cross-modal data analysis. He has published 40+ papers in the leading international journals and conferences such as TPAMI, NeurIPS, CVPR, ICCV and ECCV. He has obtained awards such as the Presidential Special Award of CAS, Excellent Doctoral Thesis of both CAS and CAAI, NVIDIA Pioneering Research Award, Baidu Fellowship, CVPR 2014 Workshop Best Paper Award, ICPR 2014 Best Student Paper Award, and RACV 2016 Best Poster Award. He co-organized the ICCV 2019 Workshop on Cross-Modal Learning in Real World, and CVPR 2020 Workshop on Multimodal Learning. He was the winner of VOT Challenge 2019 (RGBT Track) and WIDER Challenge 2019 (PSL Track).
图像描述生成:从自洽、交互到共生
主讲嘉宾:潘滢炜 京东
摘要:Vision and language are two fundamental capabilities of human intelligence. Humans routinely perform tasks through the interactions between vision and language, supporting the uniquely human capacity to talk about what they see or hallucinate a picture on a natural-language description. Image captioning, as one of the hottest task in such type of research, is to automatically produce a natural-language sentence thatdescribes the image content. The talk will briefly review existing innovations on this topic, covering three bases of visual perception via encoder, language modeling through decoder, and the multi-modal interaction in between. Moreover, we will also discuss the reflection on what is likely to be the next big leap in captioning.
个人简介:
Yingwei Pan is currently a researcher in Vision and Multimedia Lab at JD AI Research, Beijing, China. His research is focused on large-scale multimedia search, video understanding, vision and language. He has authored or co-authored about 30 papers in top-notch Conferences and Journals. Dr. Pan is an active participant of several benchmark evaluations. He is the core designer of the top-performing multimedia analytic systems in worldwide competitions such as COCO Image Captioning, Visual Domain Adaptation Challenge 2019 & 2018, and ActivityNet Large Scale Activity Recognition Challenge 2019 & 2017. He is also the author of LSTM-A, GCN-LSTM, HIP, and X-LAN for image captioning. He is the leader organizer of Pretraining for Video Captioning Challenge in ACM Multimedia 2020. For his contributions to vision and language, and multimedia search, he was awarded the 2015 Microsoft Research Asia PhD Fellowship, and the 2018 Excellence Award of Dean's Scholarship from Chinese Academy of Sciences. He holds a Ph.D. degree from the University of Science and Technology of China in 2018.
青年专题论坛5:三维点云信息处理
时间:2020年9月20日下午15:30至17:20
地点:会场2(二楼多功能25号厅)
组织人:彭京亮
主持人:彭京亮
Learning-based Sampling over 3D Point Clouds
主讲嘉宾:侯军辉 香港城市大学
摘要:Sampling (i.e., up-sampling and down-sampling) is a commonly-used technique in 3D point cloud processing for improving reconstruction quality and saving acquisition cost/storage space/transmission bandwidth/computational complexity. In this talk, I will show our recent works on learning-based sampling frameworks for 3D point cloud data. Specifically, I will introduce a geometry-centric network for 3D point cloud up-sampling, which incorporates discrete differential geometry into deep learning elegantly, followed by a novel network for task-oriented 3D point cloud down-sampling, which is designed from the perspective of matrix optimization. Extensive experiments are provided to demonstrate the advantages of our framework over the existing approaches.
个人简介:
Junhui Hou received the B.Eng. degree in information engineering (Talented Students Program) from the South China University of Technology, Guangzhou, China, in 2009, the M.Eng. degree in signal and information processing from Northwestern Polytechnical University, Xian, China, in 2012, and the Ph.D. degree in electrical and electronic engineering from the School of Electrical and Electronic Engineering, Nanyang Technological University, Singapore, in 2016. He has been an Assistant Professor with the Department of Computer Science, City University of Hong Kong, since 2017. His research interests fall into the general areas of visual computing, such as image/video/3D geometry data representation, processing and analysis, semi/un-supervised data modeling, and data compression and adaptive transmission.
Dr. Hou was the recipient of several prestigious awards, including the Chinese Government Award for Outstanding Students Study Abroad from China Scholarship Council in 2015, and the Early Career Award (3/381) from the Hong Kong Research Grants Council in 2018. He is currently serving as an Associate Editor for IEEE Transactions on Circuits and Systems for Video Technology, The Visual Computer, an Area Editor for Signal Processing: Image Communication, the Guest Editor for the IEEE Journal of Selected Topics in Applied Earth Observations and RemoteSensing, and an Area Chair of ACM International Conference on Multimedia (ACM MM) 2020. He also served as an Area Chair of ACM MM 2019 and IEEE International Conference on Multimedia & Expo (IEEE ICME) 2020. He is a senior member of IEEE.
稠密点云颜色属性的混合编码方法
主讲嘉宾:元辉 山东大学
摘要:三维点云的出现有力地促进了沉浸式通信、自动驾驶等领域的快速发展。点云数据量巨大,对其进行有效的编码十分重要。我们提出了针对稠密点云颜色属性的高效编码方法。首先,通过分析点云颜色分布特性,把整个点云划分为几个子点云;然后,针对每个子点云,又提出了新的K-d Tree划分方法,根据几何信息将每个子点云划分成多个编码块;紧接着,我们提出基于虚拟自适应采样的稀疏表示方法来去除每个编码块中点与点之间的颜色冗余。 其中,图变换基和离散余弦变换基作为稀疏表示完备字典的候选,通过率失真优化策略来自适应地选择变换基,进而提升编码效率。实验表明,与MPEG发布的G-PCC编码器相比,提出的方法在高/低比特率情况下分别可以实现平均0.73/0.70 dB BD-PSNR(RGB颜色空间)的编码增益。
个人简介:
元辉,山东大学控制科学与工程学院教授/博导,IEEE高级会员,中国图像图形学学会多媒体专委会委员,山东省人工智能学会理事。2006年6月和2011年3月分别获得西安电子科技大学学士学位和博士学位,2012年8月入选中国人社部第2届“香江学者”计划,并与2013年1月-2014年12月期间赴香港城市大学计算机科学系从事博士后研究工作;2016年9月获得山东省自然科学杰出青年基金资助。
主要研究方向为图像/视频/沉浸式媒体的高效编码、智能处理、可靠传输等。发表论文70余篇,SCI收录论文40余篇。先后主持承担国家自然科学基金青年、面上、国家重点研发计划课题、子课题、山东省自然科学杰出青年基金等国家级、省部级项目。分别于2016年12月和2020年6月获得山东省高等学校科学技术一等奖和山东省人工智能科学技术一等奖。
数据驱动的点云紧致表示
主讲嘉宾:张新峰 中国科学院大学
摘要:运动重建的三维城市级点云广泛应用于基于图像的定位任务,来估计查询图像所对应的相机位置。然而由于城市级三维点云数据规模巨大,受到设备内存限制,基于图像的定位实现起来往往存在困难。本次报告将介绍我们提出的数据驱动的三维点云紧致表示方法,提出了一种性能导向的参数决策方法,以及加权的K-Cover方法来实现点云数据的选择,在保留少量点的情况下实现和原始点云相近的定位精度。
个人简介:
张新峰博士于2014年在中国科学院计算技术研究所获得博士学位,2014年到2019年分别在新加坡南洋理工大学、美国南加州大学和香港城市大学从事博士后研究工作,目前在中国科学院大学任助理教授,主要研究方向包括视频编解码技术,质量评价和视频增强处理,已经在相关方向的国际会议和期刊上发表了超过100篇学术论文,并有近20项视频编码标准技术提案。张新峰博士曾参与和组织多个国际学术会议的专题讨论,并担任十几个学术会议和期刊的审稿人,例如IEEE TIP,TCSVT和TMM等。张新峰博士的研究工作分别获得IEEE 1857aTM标准贡献奖,多媒体国际会议PCM最佳会议论文奖,图像处理国际会议ICIP最佳学生论文奖,IEEE Multimedia最佳期刊论文奖。
基于稀疏体素图注意力网络的三维目标检测方法
主讲嘉宾:王正宁 电子科技大学
摘要:随着激光雷达传感器在自动驾驶领域的广泛应用,基于点云的三维目标检测受到了广泛关注和研究。与 RGB 图像相比,点云能够提供精确的深度和几何信息来定位目标并描述目标的形态。然而,由于点云具有无序性、稀疏性和相关性等特点,直接利用点云进行三维目标检测具有一定挑战性。我们提出了一种基于稀疏体素注意力网络(SVGA-Net)的三维目标检测方法,通过将点云划分为半径固定的三维球面空间,为每个体素构造局部完全图,为所有体素构造全局 KNN图。通过作用于局部和全局的注意力机制,为点云中每个点的特征向量提供参数监督因子,实现局部聚集特征与全局点特征的结合,再通过不同尺度特征的处理,设计稀疏到稠密的回归模型对目标类别和边界进行预测。通过在 KITTI数据集上的实验测试,本方法取得了较好的三维目标检测效果。
个人简介:
王正宁,电子科技大学信息与通信工程学院副教授,IEEE会员。2007年毕业于西南交通大学获博士学位。2008年在电子科技大学任教,2009年至2011年在中国民航总局第二研究所从事博士后工作,2014年至2015年美国南加州大学访问学者。主要研究方向包括视频编码与通信,图像增强,智能交通等,在相关方向的国际会议和期刊上发表了超过60余篇,发明专利授权20余项。先后主持国家自然科学基金面上项目、四川省科技厅重点研发项目多项,参与多个国家科技支撑计划项目、自然基金重点项目,同时担任了ICME、IEEE TIP,TMM等多个学术会议和期刊的审稿人。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn