文峰青年论坛
文峰青年论坛1:智能多媒体安全与隐私
组织者:刘艾杉,北京航空航天大学;Xinyun Chen,UC Berkeley;王嘉凯,北京航空航天大学
主讲嘉宾:操晓春,刘祥龙,吴保元,谢慈航
时间:2021年9月26日13:30-15:30
地点:3楼杰汇厅
论坛简介:本专题论坛关注于智能多媒体的安全与隐私,面向智能图像、文本、语音等相关子领域的深度学习技术安全鲁棒性、模型可解释性、数据隐私保护等深受关注的话题,以期促进智能多媒体的安全规范发展,推动技术进步和社会进步。
报告嘉宾1:
操晓春
报告题目:对抗环境下的计算机视觉
报告简介:扰动”、“标注好”、“足够多”的图像视频输入,其鲁棒性难以保证、应用场景相对有限。考虑对抗环境下上述假设不满足,报告人拟介绍信工所团队在该方向学术探索的最新进展,以及搭建的一套视觉大数据价值挖掘系统。具体包括:标注数据质量计算、低质视觉质量增强、对抗样本攻击与防御等。
个人简介:操晓春教授是中国科学院信息工程研究所研究员,主要从事计算机视觉基础研究和网络空间内容安全应用研究;国家优秀青年基金获得者,入选国家“万人计划”青年拔尖人才支持计划、中国科学院“百人计划”择优支持(结题优秀);兼任IEEE TIP、IEEE TMM、IEEE TCSVT的编委(SAE或AE)、CVPR/IJCAI/ICPR Area Chairs、英国工程技术学会(IET) Fellow、中国计算机学会杰出会员、中国电子学会青年科学家俱乐部会员;指导博士生获得CCF优博论文和中科院优博论文各一篇;获得省部级一等奖和二等奖各1项。
报告嘉宾2:
刘祥龙
报告题目:深度学习“反脆弱”技术研究:攻防与评测
报告简介:本报告将围绕深度学习所面临的对抗样本等安全挑战,介绍深度学习脆弱性问题、对抗攻击与防御(尤其是物理世界对抗攻防)国内外主要进展和具体研究案例,报告还将介绍团队近年来针对深度学习提出的测试、理解和优化的深度学习反脆弱技术体系及相关的研究工作,最后将介绍最近发布的深度学习安全评测开源项目——“重明”。
个人简介:刘祥龙教授现任职于软件开发环境国家重点实验室,主要研究大数据检索、大规模视觉分析、可信赖深度学习。近年来,主持国家自然科学基金、国防科技创新重点项目、科技创新2030重大项目等多项国家课题;发表IEEE CVPR、ICCV等国际顶级会议及期刊论文60余篇。担任Pattern Recognition、IET Image Processing等SCI期刊编委,ACM MM 2019/2020领域主席,国家新一代人工智能产业创新联盟启智开源开放平台技术委员会委员。曾获国家优秀青年科学基金、陕西省自然科学一等奖、北京市科技新星、微软铸星计划、中国计算机学会青年人才发展计划、中国计算机学会优秀博士学位论文等。指导学生获得新一代人工智能产业技术创新战略联盟OpenI启智社区首届优秀开源项目、优秀开发者、PCM 2018最佳学生论文等。
报告嘉宾3:
吴保元
报告题目:Random Noise Defense against Query-Based Black-Box Attacks
报告简介:The query-based black-box attacks have raised serious threats to machine learning models in many real applications. In this work, we study a lightweight defense method, dubbed Random Noise Defense (RND) which adds proper Gaussian noise to each query. We provide the theoretical guarantee about the effectiveness of RND against query-based attacks and the adaptive attacks. Our theoretical results reveal that the defense performance of RND is determined by the magnitude ratio between between the noise induced by RND and the noise added by the attackers for gradient estimation and local search. Based on our analysis, we further propose to combine RND with a plausible Gaussian augmentation Fine-tuning (RND-GF). It allows the defenders to add larger noise to each query and maintains clean accuracy. So we can obtain a better trade-off between clean accuracy and defense performance. Extensive experiments on CIFAR-10 and ImageNet verify our theoretical findings and the effectiveness of RND-GF. Finally, to better understand the practical effectiveness of RND, we also combine it with existing defense methods, such as adversarial training (AT). Experiments show that RND further boosts the robustness.
个人简介:吴保元,香港中文大学(深圳)数据科学学院副教授,深圳市大数据研究院大数据安全计算实验室主任。2014年获得中国科学院自动化研究所模式识别国家重点实验室模式识别与智能系统博士学位。2016年11月至2018年12月担任腾讯AI Lab高级研究员, 2019年1月至2020年8月担任T4专家研究员。他在机器学习、计算机视觉、优化等方向上做出了多项出色工作,在人工智能的顶级期刊和会议上发表论文40多篇,包括TPAMI, IJCV, CVPR, ICCV, ECCV, ICLR, AAAI等,并曾入选人工智能顶级会议CVPR 2019最佳论文候选名单。他在人工智能安全的研究上有深厚的造诣,提出过多项原创算法,是国内较早从事该研究的资深专家之一,并与腾讯安全团队开展了深入的合作。在腾讯工作期间,他领衔发布了业内第一个AI安全风险矩阵,得到业内和媒体的广泛关注。其担任人工智能权威期刊Neurocomputing编委、顶级国际会议AAAI 2021、IJCAI 2020/2021高级程序委员、中国计算机学会、中国自动化学会多个专业委员会委员。作为项目负责人承担国家自然科学基金面上项目1项,腾讯研究专项基金2项。
报告嘉宾4:
谢慈航
报告题目:Not All Networks Are Born Equal for Robustness
报告简介:Deep networks are vulnerable to adversarial examples. In this talk, I will show the design of neural architecture plays an essential role for model robustness---simple neural architectural changes (like feature-level denoisers or smooth activation functions) can lead to substantial robustness improvements.
个人简介:谢慈航博士是加州大学圣克鲁兹分校计算机科学与工程学院的助理教授。他的研究方向是计算机视觉与机器学习,目标是构建人机级的计算机视觉系统。他特别专注于确保模型在最坏情况下的性能,并赋予模型可解释性。他在约翰霍普金斯大学获得博士学位,师从计算机视觉奠基人Alan Yuille。他曾在Facebook人工智能研究院(with Kaiming He & Laurens van der Maaten)和谷歌人工智能研究院(with Quoc Le)实习。谢慈航曾获得过Facebook Fellowship。
文峰青年论坛2:弱监督图像与视频理解
组织者:韩军伟,西北工业大学;韩龙飞,北京工商大学;王乐,西安交通大学
主讲嘉宾:王兴刚,王乐,张鼎文,宫辰
时间:2021年9月26日13:30-15:30
地点:3楼贤汇厅
论坛简介: 在“大数据”背景和“人工智能”热潮的推动下,计算机视觉领域中的主流的视觉学习与认知问题(例如目标检测,语义分割等)得到了飞速的发展并取得了突破进展。然而,由于目前对大规模视觉数据的标注的发展相对滞后,实现计算机视觉学习与认知的自动化,智能化仍面临严峻挑战:目前大规模视觉数据的标注完全依赖于人工手动作业,而手动标注图像场景中的所有物体的位置以及轮廓信息需要耗费大量的时间、精力与金钱。因此,在现实大数据视觉任务中,对所有数据获得高质量人工标注往往是“不可能完成的任务”。为了克服“海量数据规模”与“有限人工标注”之间的矛盾,弱监督视觉学习成为计算机视觉领域亟需解决的重要问题之一。相比于传统的视觉学习与认知方法,弱监督视觉学习系统具有如下优点:一方面它可以解放大量人工标注所耗费的时间和精力,并将视觉学习与认知推向更高层次的“人工智能”——人工智能技术的内在要求之一正是“解放人力”;另一方面它所拥有的自动标注数据的能力可以自动地对不限规模的视觉大数据进行标注,这样可以将海量人工标注无法涉及的数据引入到视觉学习与认知过程中,大大丰富视觉学习与认知系统的“知识面”。因此,弱标注下的视觉学习与认知将成为新一代视觉学习与认知领域发展的重中之重。
报告嘉宾1:
王兴刚
报告题目:弱监督视觉理解:深度框架与视觉先验
报告摘要:弱监督物体检测、分割等技术能够显著降低图像理所需的训练标记量,将封闭数据集上的强监督学习提升至开放场景中的弱监督理解,是当前计算机视觉和多媒体研究中的重点内容。针对弱监督物体检测分割,本次报告中将概括在深度神经网络中构建弱监督检测分割的若干框架,例如多示例学习框架、自学习框架、擦除迭代框架等。为进一步提升弱监督检测分割精度,报告中将介绍如何在弱监督深度框架中融入利用视觉显著性、类别无关定位、遮挡特性等视觉先验。此外,报告还将结合transformer等新技术,调研弱监督检测分割问题上的业内领先方法。
个人简介:王兴刚,华中科技大学,电子信息与通信学院,华中卓越学者晨星岗副教授。主要研究方向为计算机视觉和深度学习,尤其在于弱监督高效率物体检测与分割。分别于2009年和2014年在华中科技大学获得学士和博士学位,分别于2011年和2013年在美国天普大学和UCLA做访问研究。发表论文70余篇,其中包括(顶级期刊和会议IEEE TPAMI, IEEE TIP, CVPR, ICCV, ECCV, NIPS, ICML, AAAI)40余篇,谷歌学术引用次数超过7000次,提出了OICR/PCL等被广泛使用的弱监督物体检测框架、空间稀疏自注意力机制(CCNet)等新方法。担任CVPR 2022领域主席,Pattern Recognition,Image and Vision Computing期刊副编辑。CSIG图象视频通信/机器视觉,CAAI模式识别等专委会委员。2012年获“微软学者”奖(全亚洲10名获奖者),2015年入选中国科协“青年托举人才工程”,2016年获湖北省优秀博士论文奖,入选华中科技大学“学术前沿青年创新团队”,2017年获中国电子教育学会优秀博士论文提名奖,湖北省自然科学二等奖(排名第四),Pattern Recognition等杂志优秀审稿人奖等,2018年获CCF-腾讯犀牛鸟基金优秀奖,ECCV'18大规模视频物体分割竞赛第二名,ICCV'19大规模视频物体分割竞赛第二名。
报告嘉宾2:
王乐
报告题目:弱监督的视频行为时序定位
报告摘要:视频行为时序定位是视频内容理解中的关键问题。针对现有方法严重依赖帧层行为标注以及行为原生的时间边界模糊问题,本报告围绕弱监督条件下的行为时序定位,即在仅利用视频级的类别标签情况下实现行为时序定位,介绍几种弱监督的视频行为识别与定位方法。主要解决的问题是:如何将适于分类的特征转换为适于定位的特征,从而实现在只有视频级标签的弱监督条件下同时给出视频行为类别与时间边界。
个人简介:王乐,博士,西安交通大学人工智能与机器人研究所副教授、博导、所长助理,2018年入选“中国科协青年人才托举工程”。分别于2008年和2014年获西安交通大学控制科学与工程专业学士和博士学位。2016-2017赴美国西北大学做访问研究,2013-2014赴美国史蒂文斯理工学院访学。主要研究兴趣为计算机视觉、模式识别与机器学习。在IEEE T-PAMI、IEEE T-IP、ICCV、CVPR和AAAI等领域顶级期刊和国际会议发表论文50余篇,谷歌学术引用1000余次。申请/获授权中国发明专利20余项。主持国家自然科学基金面上和青年项目等10余项。2014年获西安交通大学“优秀博士论文基金”,2012年获国际会议ACCV“最佳应用论文奖”。担任ICCV‘2025主办地主席,CVPR’2022领域主席,中国自动化学会青年工作委员会副秘书长。
报告嘉宾3:
张鼎文
报告题目:稳健弱监督学习理论、方法及应用
报告摘要:目前人们可以利用便携摄像设备获取海量的视觉数据,然而各类视觉任务所需要的精细标注依然依赖低效且昂贵的人工劳动完成。这严重制约了目前主流的深度学习模型的应用前景。为了解决这个问题,弱监督视觉学习应运而生。本报告就目标检测为例,分享弱监督学习在该领域的研究进展,并介绍本课题组近年来逐步形成的基于稳健学习理论的弱监督目标检测方法。具体来说,我们针对复杂场景下的弱监督学习问题,以稳健学习理论为纲,分别提出了自步-课程协同学习引导的先验知识稳健嵌入框架、基于多任务自步稳健学习的弱监督自步微调网络、以及面向少量弱标注目标检测的跨模型协同稳健学习机制来克服样本小、目标杂所引起的学习不确定性、联合分割任务提升复杂背景下物体的定位精度,以及利用无标注图像增加学习多样性并提升模型对多变目标的泛化能力。最终我将对上述工作进行总结并展望未来研究方向。
个人简介:张鼎文,西北工业大学脑与人工智能实验室教授,2015赴美国卡耐基梅隆大学进行为期2年的访问研究,曾入选中国博士后创新人才计划, 科睿唯安“全球高被引科学家”。所发表论文入选ESI高被引论文及热点论文十余次,1篇论文获2021 IEEE TCSVT最佳论文奖,1篇论文入选2018年中国百篇最具影响国际学术论文,获中国图象图形学学会优秀博士论文奖,ACM China SIGAI(国际计算机学会中国人工智能分会)优博奖,陕西省优秀博士学位论文奖等。是IEEE会员、ACM会员、中国图象图形学学会视觉大数据专委会委员、第六届VALSE执行领域主席委员会委员。主要从事人工智能领域中的热点研究方向—计算机视觉、模式识别、多媒体信息处理、机器学习。致力于建立面向开放环境下、具备动态学习能力的新一代计算机视觉学习框架。迄今为止,作为第一作者/通讯作者在领域内国际重要期刊及会议发表学术论文30余篇,其中包含T-PAMI, IJCV, IEEE SPM, T-IP, CVPR, ICCV, Science China: Information Science等,担任IEEE TMM与TCSVT的Leading Guest Editor, 担任ACM MM及ICCV的Workshop Organizer。
报告嘉宾4:
宫辰
报告题目:弱监督学习统一框架初探
报告摘要:作为一个经典的学习问题,弱监督学习发展至今已衍生出了多种具体的学习范式。围绕不充分、不确定、不准确的监督情形,半监督学习、PU学习、多示例学习、标签噪声学习等各类方法应运而生。虽然弱监督学习方法种类繁多,但之前针对不同方法的研究都是相互割裂的,因此是否存在一个统一的弱监督学习框架从根本上对各类“弱监督”情形进行建模是一个亟待探索的问题。本报告主要汇报一个通用的弱监督学习框架,称为“统计有效性保证的质心估计”。该框架的核心是通过损失函数分解和质心估计设计一个适用于各类弱监督情形的无偏、有效的经验风险估计量。理论上可以证明该框架在实施质心无偏估计时能获得最小的方差,从而可保证良好的统计有效性。该框架可涵盖诸如半监督学习、PU学习、多示例学习和标签噪声学习等多种典型弱监督学习方法,并在标准数据集上表现出良好的性能。
个人简介:宫辰现任南京理工大学计算机科学与工程学院教授、博导。于2010年获得华东理工大学学士学位,并分别于2016、2017年获上海交通大学和悉尼科技大学双博士学位。 已在世界顶级期刊或会议上发表100余篇学术论文,主要包括IEEE T-PAMI, JMLR, IEEE T-NNLS, IEEE T-IP, ICML, NeurIPS, ICLR、CVPR, AAAI, IJCAI等。担任AIJ、JMLR、IJCV、IEEE T-PAMI等20余家国际权威期刊审稿人,并受邀担任ICML、NeurIPS、CVPR、ICCV、IJCAI、AAAI、ICDM等多个国际会议的(S)PC member。 曾获吴文俊人工智能优秀青年奖、中国科协“青年人才托举工程”、中国人工智能学会“优秀博士学位论文”奖、上海市自然科学二等奖、上海交通大学“优秀博士学位论文”奖、江苏省“六大人才高峰”、江苏省“双创博士”等。
文峰青年论坛3:开放环境跨媒体感知
组织者:张 磊,重庆大学
主讲嘉宾:彭宇新,杨易,林巍峣,张磊
时间:2021年9月26日15:50-17:50
地点:3楼尊汇厅
论坛简介:随着多媒体技术的不断普及和网络技术的迅猛发展,媒体数据感知与分析已经从文本、语音、图像以及视频等单一媒体模态向覆盖网络空间与物理空间的跨媒体融合转变。由于不同模态的信息呈现动态、复杂、多层次的时空、语义关联,传统的基于独立同分布等假设分析的处理方法已难以对海量复杂的跨媒体感知信息进行有效利用和模型学习。近年来,通过深度学习实现对多个模态信息的统一表征、转换及深层理解,完成跨媒体推理与决策受到极大的关注。如何借鉴人脑的跨媒体处理能力及特性,实现海量、复杂、异构的跨媒体语义贯通与统一表征是人工智能系统能够有效处理跨媒体信息的先决条件,对于提高计算机的感知、认知能力和智能水平至关重要。因此,该课题在人工智能领域占据十分重要的地位,对其进行深入探讨极其有必要。
报告嘉宾1:
彭宇新
报告题目:跨媒体检索
报告摘要:随着多媒体和互联网技术的迅猛发展,图像、视频、文本、音频等多媒体大数据快速增长。它们多源异构且相互关联,使得信息检索面临跨源、跨域、跨媒体等重要挑战。如何借鉴人脑的跨媒体处理特性,跨越视觉、语言、听觉等不同感官信息来感知和认知外部世界,对于提高计算机的智能水平至关重要。本报告将介绍我们在跨媒体检索上的研究工作,并进行相关系统展示。
个人简介:彭宇新,北京大学二级教授、博雅特聘教授、博士生导师、国家杰出青年科学基金获得者、国家万人计划科技创新领军人才、科技部中青年科技创新领军人才、中国人工智能产业创新联盟专家委员会主任委员、中国工程院“人工智能2.0”规划专家委员会专家、北京图象图形学学会副理事长、中国图象图形学学会副秘书长。主要研究方向为跨媒体分析与推理、图像视频识别与理解、计算机视觉。以第一完成人获2016年北京市技术发明一等奖和2020年中国电子学会科技进步一等奖。主持了863、国家自然科学基金等20多个项目,发表论文160多篇,包括ACM/IEEE Trans和CCF A类论文70多篇。多次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频样例搜索比赛,均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任IEEE TCSVT等期刊编委。
报告嘉宾2:
杨易
报告题目:大规模视频内容理解和多模态语义关联的方法
报告摘要:随着自媒体和短视频行业的蓬勃发展,目前网络上多媒体数据爆炸性增长,提升对多媒体内容感知和推理的科学化和智能化水平,对推动我国互联网治理与发展具有重要意义。网络内容的核心是由体量巨大的跨域、异构、多源、多模态数据复杂耦合而成的跨媒体信息,一方面,跨媒体语义关联性和时空涌现性空前复杂,现有跨媒体浅层语义分析技术已无法满足日益演进的跨媒体理解需求,另一方面,多模态混合交织的跨媒体内容为实现跨域语义贯通供了机遇。本报告中,讲者将以大规模视频内容理解和多模态语义关联为切入点,主要介绍视频分类、动作识别、动作定位、视频物体检测、视频场景分割、多模态视频预训练等技术的前沿进展。
个人简介:杨易,浙江大学特聘教授,主要研究方向为人工智能,计算机视觉,多媒体大数据分析,自然语言处理和机器学习。在国际权威期刊和CCF-A类会议发表论文300余篇,Google Scholar 引用28000余次,H-index为87,在工程学和计算机科学两个领域同时入选科睿唯安全球高被引学者。入选2021年人工智能全球最具影响力学者榜单中经典AI、多媒体、计算机视觉、数据库四个领域,是同时在四个子领域进入全球影响力前一百的最具影响力学者之一(全球仅五人)。曾获教育部全国优秀博士论文,浙江省自然科学一等奖,澳大利亚研究理事会青年职业奖和澳大利亚计算机学会颠覆创新金奖,谷歌学者研究奖和AWS机器学习研究奖等十余次人工智能领域国际奖项。
报告嘉宾3:
林巍峣
报告题目:多模态联合的大规模视频语义信息理解与编码
报告摘要:随着多媒体应用与服务的迅速发展,视频中的行为、属性等语义信息在大规模多媒体系统中的应用日益重要,因此,对语义信息的精准提取及高效压缩等需求,正变得日益显著。在本次报告中,我们将介绍我们课题组在大规模语义信息提取与压缩方面的一些工作。首先,我们将介绍我们在目标行为和交互语义提取方面的工作,我们对当前的行为识别与定位架构进行的重新建模,并提出了从全局到局部的渐进行为提取架构。其次,我们将介绍多模态联合视频理解的工作,通过音视频的联合分析,实现对多媒体信息中目标的精确定位和分析。第三,我们还将介绍我们在语义信息压缩编码方面的工作,我们设计了面向目标关键点序列等基础语义的压缩编码架构,实现了平均60%以上的码率节省。最后,我们也将介绍一下我们的工作在实际场景中的一些应用演示。
报告嘉宾4:
张磊
报告题目:开放环境跨域感知
报告摘要:在实际应用中,由于数据不确定性、环境不可控性以及算法特异性,机器学习算法的适应性和安全性依然较差,传统的人工智能模型与深度学习算法难以满足开放、动态、复杂环境下的感知与应用。本报告从迁移自适应学习的角度,介绍团队近期在开放环境下的视觉感知研究成果,包括开放环境下的目标检测、行人重识别与图像检索技术。
个人简介:张磊,重庆大学微电子与通信工程学院教授,博士生导师,重庆市生物感知与智能信息处理重点实验室副主任,LiVE视觉智能与学习团队负责人,IEEE高级会员。主要聚焦于迁移学习、深度学习、开放环境视觉感知、跨媒体分析等领域。在IEEE TPAMI、TIP、TNNLS以及CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等期刊和会议上发表论文120余篇。多篇论文入选ESI高被引论文,出版英文专著1部,发明专利14项。担任多个SCI期刊包括IEEE Trans. Instrumentation and Measurement以及Neural Networks等期刊编委,以及ACM MM、CVPR、AAAI、ICLR等会议的Area Chair和PC等。以第一完成人获得吴文俊人工智能自然科学奖和重庆市科学技术奖2项,并获重庆市十佳科技青年奖、ACM SIGAI Rising Star Award等。
文峰青年论坛4:科学遇见艺术,时尚与设计
组织者:Calvin Wong, 香港理工大学;钱建军,南京理工大学;邹星星,香港理工大学
主讲嘉宾: Ziad AI-Halah,赵效南,刘偲,韩欣彤
时间:2021年9月26日10:20-12:00
地点:3楼尊汇厅
报告嘉宾1:
Ziad AI-Halah
报告题目: The Evolution of Fashion: A Visual Perspective
报告摘要:The clothes people wear are a function of personal factors like comfort, taste, and occasion—but also wider and more subtle influences from the world around them, like changing social norms, art, the political climate, celebrities and style icons, the weather, and the mood of the city in which they live. Fashion itself is an evolving phenomenon because of these changing influences. We propose the first work to quantify fashion influence relations between cities and brands from real-world images. Our results shed light on the spatio-temporal migration of fashion trends across the world—revealing which cities are exerting and receiving more influence on others, which most affect global trends, which contribute to the prominence of a given style, and how a city’s degree of influence has itself changed over time.
个人简介:Ziad Al-Halah is a Postdoctoral Fellow (work with Prof. Kristen Grauman) in the Department of Computer Science at the University of Texas at Austin. Before joining UT Austin in 2019, he received his Ph.D. with distinction from the Department of Computer Science in Karlsruhe Institute of Technology, Germany. His research in computer vision focuses on transfer learning, multimodal perception, visual recognition, and visual fashion analysis. He received the Best Student Paper Award in ICPR 2014, and he and his collaborators won the Textbook Question Answering (TQA) Challenge at CVPR 2017, and the Habitat Challenge (PointNav) at CVPR 2020. He served as an Area Chair of WACV 2021, MVA 2021, and GCPR 2021. He is an organizer of the Computer Vision for Fashion, Art, and Design (CVFAD) workshop 2021, and the Ethical Considerations in Creative Applications of Computer Vision (EC3V) workshop 2021. https://www.cs.utexas.edu/~ziad/
报告嘉宾2:
赵效南
报告题目:弱监督时尚产品表征学习及其应用
报告摘要:我们提出了一种利用文本作为弱监督的数据源以实现图像表征学习的方法。这种方法能够有效的提升图像表征在下游应用时的效果。将文本语义中的相对近似关系嵌入图像表征学习的过程中,提高了图像表征在搜索、聚类、抄袭识别、迁移学习、推荐上的效果。我们将结合技术在亚马逊的实际产品,分享一些成功的应用经验,以及应用过程中的一些困难和问题。
个人简介:赵效南,亚马逊(美国)应用科学家。2012年于西安电子科技大学计算机学院获得学士学位。2017年于纽约大学获得硕士学位。2017年至今在亚马逊从事计算机视觉,推荐系统相关的应用型研究工作。主导了一系列利用深度学习来实现时尚商品的表征学习、分类、聚类、推荐、抄袭识别等工作。
报告嘉宾3:
刘偲
报告题目:AI + 美妆迁移和视频配乐
报告摘要:本报告将介绍两方面的工作。1)美妆迁移可以自动把妆容从参考人脸迁移到任意人脸。现有方法在受限场景中取得了很大进步,但在姿势和表情差异较大的图像之间转移妆容仍然非常具有挑战性。此外,现有方法几乎无法在转移过程中控制化妆浓度或实现指定部分的上妆。我们提出了一种姿势和表情鲁棒的PSGAN++。该算法很好地转移妆容细节和有效的卸妆。2)视频配乐可以基于视频内容自动谱曲。以前工作无法针对给定的视频生成悠扬的音乐,并且没有考虑视频与音乐节奏的一致性。 为此,我们首先建立视频和背景音乐之间的节奏关系。 然后,我们提出了可控的音乐变换器,它能够对上述节奏特征进行本地控制,以及对用户指定的音乐流派和使用的乐器进行全局控制。 客观和主观评价表明,生成的背景音乐与输入的视频兼容,同时具有令人印象深刻的音乐质量。
个人简介:刘偲现任北航人工智能学院副教授。博士毕业于中科院自动化所,曾于新加坡国立大学任研究助理和博后,曾任微软亚洲研究院(MSRA)铸星计划研究员。研究方向是跨模态多媒体智能分析(跨模态包含自然语言,计算机视觉以及语音等)以及经典计算机视觉任务(目标检测、跟踪和分割)。共发表了CCF A类论文50余篇,其研究成果发表于TPAMI、IJCV和CVPR等。Google Scholar引用7000+次。2017年入选中国科协青年人才托举工程、吴文俊人工智能优青奖、CSIG石青云女科学家奖。获ACM MM最佳技术演示奖和最佳论文奖各一次。获得10项CVPR、ICCV、ACL、MM等国际顶级竞赛冠军。主办了ECCV 2018、ICCV 2019、CVPR 2021‘Person in Context’workshop。担任中国图像图形学学会理事、副秘书长。多次担任ICCV、CVPR、ECCV等顶级会议领域主席(AC)。个人主页:http://colalab.org/ 。
报告嘉宾4:
韩欣彤
报告题目:基于AI 的服装渲染与设计
报告摘要:生成模型最近已被引入服装渲染与设计。其基本任务是基于图像的虚拟试穿,即通过将产品图像自然地渲染到人体相应区域,并合成逼真的虚拟试穿图像。本报告着重从两个方面:1.技术上如何解决此问题;2. 该类技术如何潜在地影响时尚行业;介绍我们在该领域几项最新研究。更进一步,我们将介绍人工智能辅助时装设计的几个实际应用,即虎牙如何成功运用人工智能帮助设计虚拟主播的服装纹理,显著减轻设计师与艺术家的工作负担,提升主播的直播体验。
个人简介:韩欣彤,虎牙直播计算机视觉方向的Tech Lead。于2013年在上海交通大学获得信息工程学士学位,并于2018年在美国马里兰大学帕克分校获得了电气和计算机工程的博士学位 (Supervised by Larry Davis)。博士期间他在谷歌进行过两次暑期实习,2018博士毕业后,加入深圳码隆科技有限公司担任算法研究员,从事和时尚于商品识别相关的基础研究,之后于2019年加入虎牙直播专注于和虚拟主播与数字人相关的研发工作。韩欣彤博士的研究兴趣主要集中在人脸、人体和衣服的理解、建模以及生成上,他在博士和工作期间,先后在CVPR,ICCV,ECCV,SIGGRAPH Aisa等国际顶尖计算机视觉会议上发表了10余篇论文。
文峰青年论坛5:多媒体内容理解前沿进展
组织者: 陈静静,复旦大学;鲍秉坤,南京邮电大学
主讲嘉宾:刘静,何向南,韦星星,高君宇
时间:2021年9月26日15:50-17:50
地点:3楼杰汇厅
论坛简介:随着互联网的快速发展以及便携式摄像设备的普及,多媒体数据 (文本、图像、视频等) 呈爆炸式增长。为了有效处理海量多媒体数据,智能多媒体内容分析与理解成为热点研究问题,吸引了学术界和工业界的广泛关注。目前多媒体内容理解的挑战主要来自于两方面。首先,当前多媒体分析技术仍然无法精确理解多媒体内容中蕴含的细粒度语义信息(如视觉关系);其次,现有的多媒体内容识别模型容易受到对抗样本的攻击,存在一定的安全隐患。因此,如何实现高精度的细粒度多媒体内容理解以及提高多媒体内容分析模型的鲁棒性已经成为当前的研究重点。本论坛将邀请多媒体内容分析与理解领域的优秀青年专家介绍领域的前沿技术,包括图像字幕生成、鲁棒视频识别、视觉关系理解、多媒体内容推荐等。思辨环节,嘉宾将和与会人员共同探讨多媒体内容理解技术落地应用过程中面临的机遇、挑战与未来发展趋势。
报告嘉宾1:
刘静
报告题目:深度学习时代的图像语义理解
报告摘要:图像语义理解作为计算机视觉领域的重要研究内容,一直以来都受到学术界的广泛关注,特别在深度学习时代更是迎来了飞速发展,在无人驾驶、智能医疗、智能安防、人机交互、图像编辑等领域得到了实际推广应用。 本报告将回顾在深度学习框架下不同语义粒度的图像语义理解方法,并介绍本人近期在图像语义分割和图像语义描述两方面的相关研究工作,同时对图像语义理解未来值得探讨的研究问题进行简单讨论。
个人简介:刘静,中科院自动化所研究员/博导,国家优青获得者。研究方向图像视频分析与理解。曾获图像图形学会科学技术二等奖,微软亚洲研究院“铸星计划”青年访问学者。承担或参与多项国家自然科学基金项目、国家973、国家基金重大研究计划、国家重点研发等。已发表高水平学术论文150余篇,谷歌学术引用5600+次,SCI他引次数2000+次,其中有两篇被ESI列为Top 1% 高被引论文。在视觉计算相关领域的多项国际学术竞赛中荣获6项冠军。
报告嘉宾2:
何向南
报告题目:面向反馈回路和数据偏差的因果推荐系统
报告摘要:推荐系统在缓解信息过载、提供个性化服务等方面起着关键作用。深度模型由于其极强的数据拟合、关联能力,极大地推动了推荐技术的发展。然而,在实际应用中,单纯依靠数据驱动的推荐模型普遍面临数据偏差和模型偏差,加剧推荐系统的马太效应。因果理论是统计科学中消除偏差影响、辅助有效决策的关键技术。本次报告介绍如何有效地将因果推理引入数据驱动的推荐模型,具体包括基于IPS的自动消偏方法、基于因果效应和反事实推理的消偏方法,以及基于因果干预的混杂控制方法。该系列工作发表于2021年WWW、SIGIR、KDD等。
个人简介:何向南,中国科学技术大学教授、博导。研究领域:信息检索与挖掘、因果推理等,在CCF A类会议和期刊发表论文90余篇,包括SIGIR、KDD、WWW等,谷歌学术引用1万余次,h-index 41。曾获SIGIR 2016、WWW 2018最佳论文提名奖等。担任多个期刊的编委/副主编,如AI Open, Frontiers in Big Data等。主持国家自然科学基金面上项目、重点项目,科技部重点研发计划课题等。
报告嘉宾3:
韦星星
报告题目:面向智能多媒体计算的对抗鲁棒性研究
报告摘要:深度学习技术的兴起给多媒体计算带来了新的范式,然而最近的研究表明深度学习自身非常的脆弱,容易受到对抗样本的攻击,给以深度学习为基础的多媒体计算带来了安全隐患。在本次报告中,我将围绕多媒体计算中的图像和视频数据,首先介绍面向智能多媒体计算的对抗鲁棒性评估方法,分别从白盒攻击和黑盒攻击两个层面来介绍图像和视频对抗样本生成技术。接着以此为基础介绍对抗鲁棒性增强的若干方法,包括基于预处理技术的对抗噪声防御方法以及针对模型自身的鲁棒性增强方法。最后,我将以人脸识别、自动无人驾驶,安防监控等具体任务为背景,介绍对抗样本如何在物理环境下进行应用落地。希望通过本次报告和大家就对抗样本下一步的发展方向进行探讨。
个人简介:韦星星,博士,北京航空航天大学人工智能研究院副教授,博士生导师,北航青年拔尖人才。他于2017年至2019年在清华大学计算机系从事博士后研究。在这之前分别在北京航空航天大学和天津大学获得学士及博士学位,毕业后曾在阿里巴巴公司任计算机视觉资深算法工程师。他的主要研究方向为对抗机器学习和计算机视觉,在CVPR,ICCV,ECCV,IJCAI,AAAI,ACMMM和TCYB,TMM,TGRS等人工智能领域顶级会议和期刊发表学术论文30余篇。他与团队一起获得DEFCON2018举办的对抗样本国际测评赛CAAD CTF冠军,并指导学生获得ACMMM2021举办的鲁棒logo检测比赛亚军以及CVPR2021举办的ImageNet无限制对抗攻击比赛全球第4名。多次受邀担任人工智能领域顶级国际会议的程序委员会委员。作为项目负责人,他主持科技部“新一代人工智能”2030重大项目课题、国家自然科学基金面上项目和青年项目、中国博士后基金特别资助项目和面上项目、CCF-腾讯犀牛鸟基金以及华为/腾讯/阿里等知名企业的若干横向项目。
报告嘉宾4:
高君宇
报告题目:视频理解中的关系学习研究
报告摘要:随着便携式数码设备的普及和移动互联网的发展,海量的视频大数据亟需智能的视频理解技术。视频理解是一个融合视频底层特征信息和高层语义信息的过程,并服务于用户的不同需求。视频大数据具有(1)时空复杂,(2)底层特征与高层语义之间存在“语义鸿沟”,(3)类别丰富,(4)多模态,(5)个性化需求多样等特点。这些特点在视频数据中表现为纷繁复杂的关系信息,因此为视频的智能理解带来了巨大的挑战。事实上,针对视频中复杂而多样的关系模式进行学习对深入地理解视频内容是至关重要的。本报告围绕如何设计有效的关系学习方法来进行视频理解展开,自底向上地重点研究了视频中的三种关系结构信息:首先针对视频中的物体层面,研究了物体表观中的结构化关系建模;接着以物体为纽带,深入挖掘了视频中的物体-语义关系信息,从而实现了视频高层语义的自动提取;最后,探索了视频语义在用户服务如检索和推荐中的应用。
个人简介:高君宇,中国科学院自动化研究所助理研究员。先后于西安交通大学和中国科学院自动化研究所获得学士及博士学位。主要研究方向为多媒体计算、视频理解、关系学习等,先后在CVPR, ICCV, ACM MM, AAAI和TPAMI,TIP,TMM,TCSVT等人工智能领域顶级会议和期刊发表一作学术论文10余篇。获得中国科学院院长特别奖、百度奖学金、中国科学院优秀共青团员、中国科学院优秀博士论文等荣誉。作为项目负责人和参与人,主持和参与了“新一代人工智能”2030重大项目子课题、中国科学院特别研究助理资助项目、基金委重点项目等多个国家级和省部级项目。
文峰青年论坛6:未来听觉艺术与技术
组织者:张勤,中国传媒大学;帖云,郑州大学;靳聪,中国传媒大学
主讲嘉宾:张晓雷,昭曦,王晶,谭旭,勒聪
时间:2021年9月26日15:50-17:50
地点:3楼贤汇厅
论坛简介:深度学习目前已然成为智能听觉艺术领域的一项关键技术,它们已被用于一系列如智能语音识别与合成,智能音乐生成与分析,智能音频编解码与沉浸式音频的分析与创作等音频识别与合成任务之中然而,大多数现有的方法直接运用深度学习网络模型来处理智能听觉艺术的任务,而没有考虑数据和任务之间的独特性。“未来听觉艺术”分论坛针对智能听觉艺术发展应用的各个难点问题,围绕“沉浸式音频通信技术探讨”、“未来IoT环境下自组织麦克风阵列拾音与识别”、“基于深度学习的流行音乐创作”“自动音频描述”等主题展开深度探讨与学术交流,共同致力于搭建一个为智能听觉艺术各个领域人才服务,用于交流思想,分享学术成果的重要平台,推进智能听觉艺术的发展与创新。
报告嘉宾1:
张晓雷
报告题目:未来IoT环境下自组织麦克风阵列拾音与识别
报告摘要:在5G、物联网IoT环境下,声音的采集与识别将广泛分布于各种类型的拾音设备上。现有的音频处理技术仍然以单设备为主,当设备距离声源距离较远、信噪比较低时,存在性能上限。一种解决方案是将多设备的拾音前端起来,形成自组织麦克风阵列,以显著降低远场的发生概率、提高拾音性能。但是,自组织阵列的实际应用存在多个技术难点。本报告将以数据驱动的语音降噪、识别为主线,在介绍单设备拾音技术基础上,进一步介绍近年来基于数据驱动的自组织麦克风阵列拾音与识别技术的进展。
个人简介:张晓雷,西北工业大学教授。在Neural Networks、IEEE TPAMI、IEEE TASLP等期刊、会议发表论文50余篇。出版专著1部、译著1部。入选国家与省部级青年人才计划。获得国际神经网络学会与国际期刊《Neural Networks》2020最佳论文奖、亚太信号与信息处理学会杰出讲者、UbiMedia 2019国际会议最佳论文奖、北京市科学技术一等奖等。担任Neural Networks、IEEE/ACM TASLP等多个国际期刊的编委、IEEE信号处理学会语音语言技术委员会委员等。
报告嘉宾2:
邵曦
报告题目:Audio Captioning based on Transformer and pre-trained CNN
报告摘要:自动音频描述(Audio Captioning)是一种多媒体交互操作,它将一段音频内容用自然语言进行准确描述。我们提出了一种基于Transformer解码器的多任务训练模型来对音频和对应文本描述进行训练,从而提高音频描述的准确性。在该任务上,我们获得了2020年dcase比赛(Detection and Classification of Acoustic Scenes and Events)全球第二名的好成绩,并获得系统可重现奖(Reproducible System award)。
个人简介:邵曦,南京邮电大学通信与信息工程学院教授,中国计算机学会语音对话与听觉专业组委员;现为南京邮电大学通信与信息工程学院副院长,南京市欧美同学会理事、南京市鼓楼区欧美同学会副理事长。邵曦博士长期从事多媒体信息系统分析与多媒体信息检索方面研究。作为项目负责人承担国家自然科学基金2项,国家自然科学基金重点基金项目子课题1项,国家2030人工智能重大专项子课题1项,华为创新基金等企业项目多项。在音乐内容分析与检索、多媒体跨模态分析、多媒体跨平台个性化推荐等方向取得多项成果;近年来在国际会议和国际核心刊物上发表40余篇学术论文,出版专著两本;目前担任IEEE Trans on Multimedia, IEEE Trans on Audio Speech and Language Processing等多个领域内知名国际期刊的审稿人(Reviewer),担任过ACM SIG on Multimedia Conference,International Conference on Multimedia Explore(ICME) 等多个国际知名学术会议的学术委员会 (Technical Program Committee) 委员。作为国内计算音乐学的创始人之一,创办了中国声音与音乐技术会议并长期担任该会议程序委员会主席;曾获江苏省教学成果奖一等奖1项。
报告嘉宾3:
王晶
报告题目:沉浸式音频通信技术探讨
报告摘要:随着人工智能、通信网络及虚拟现实技术的迅猛发展,人们对能够带来更高视听享受的沉浸式媒体的需求日益增强,近期引为关注三维音频(3D Audio)和虚拟现实音频(Virtual Reality Audio)技术可以在播放端呈现出360度空间三维声场,并带来虚拟三维音频内容表达方式的革新,但现有的技术和标准内容仍然很难满足未来沉浸式广播、通信以及网络交互等场景下更高听觉体验的需求。目前,业界已经注意到了沉浸式音频对5G/6G、AR/VR/XR、OTT等重要应用场景下音频体验提升的重要性,国际标准组织3GPP和MPEG,国内标准组织AVS等都在为此加紧研制切实可行的解决方案。该报告以“沉浸式音频通信”为主题对三维音频关键技术、虚拟现实音频发展等进行概述,同时从应用、系统、技术、标准等层面分析沉浸式音频通信的技术需求。
个人简介:王晶,博士,北京理工大学信息与电子学院通信技术研究所副教授,研究领域为语音和音频信号处理、多媒体通信等,承担多项国家级研究课题和国际合作项目,发表SCI/EI检索学术论文50余篇,获授权发明专利10余项,参与信息技术领域标准化工作,主持获批电子行业标准1项,向ITU/3GPP/AVS等国内外标准组织提交测试报告和提案若干份。目前是IEEE会员,AES会员,AVS工作组成员,中国电子学会高级会员,中国通信学会高级会员,CCF语音对话与听觉专业组委员等。
报告嘉宾4:
谭旭
报告题目:基于深度学习的流行音乐创作
报告摘要:近年来,随着深度学习的发展,人工智能音乐成为了一个非常火热的研究课题。在本次报告中,我将简要分析流行音乐的创作流程以及如何将深度学习应用到流行音乐的创作中。然后介绍我们开展的一系列研究工作,包括:1)SongMASS,歌词到旋律和旋律到歌词的生成系统;2)StructMelody,基于音乐结构信息的旋律生成系统;3)MusicBERT,基于大规模音乐数据预训练的音乐理解模型;4)PopMAG,基于序列建模的伴奏生成系统;5)HiFiSinger,高保真的歌声合成系统。最后,我将分析当前人工智能音乐创作研究的局限,以及未来潜在的研究方向。
个人简介:谭旭,微软亚洲研究院主管研究员,研究兴趣为深度学习及其在自然语言/语音/音乐中的应用,包括神经机器翻译、预训练模型、语音合成、语音识别、音乐理解与生成等。他随团队在中英机器翻译上达到人类水平,并在WMT机器翻译比赛中获得多项冠军。他的研究成果(如预训练语言模型MASS、语音合成系统FastSpeech等)受到学界广泛关注并应用于微软重要产品中(如Azure、Bing等)。
报告嘉宾5:
靳聪
报告题目:基于强化学习的智能作曲编曲研究
报告摘要:人工智能作曲编曲是近几年的研究热点问题之一。目前的研究主要集中在处理音高、节奏及每个音符的时长和音符之间的休止等序列生成问题,但是实际的音乐创作过程包括旋律作曲、多乐器轨编曲和风格的添加。该研究基于对抗强化学习网络的智能作曲编曲框架,以解决旋律生成的结构性、多乐器轨生成的和谐性和风格生成的可控性问题,具有鲜明的特色和创新性;同时,可提高智能作曲和编曲的性能和满足用户的应用需求,具有非常重要的实际意义。
个人简介:靳聪,中国传媒大学助理研究员,博士,人工智能学会青年工作委员会委员、传媒专委会委员、艺术专委会委员、计算机学会会员。研究领域为智能媒体计算、强化学习、计算音乐等。承担国家自然科学基金重点项目和国家重点研发计划等课题,在国内外高水平期刊和国际会议上发表论文30余篇。 担任IJCAI、ISMIR等国际会议和亚洲人工智能大会的程序委员会委员,Neurocomputing、IEEE Transactions on Neural Networks and Learning Systems等多个领域内知名国际期刊的审稿人。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn