ChinaMM 2023 青年论坛(快手冠名)
智能视频压缩
一、 论坛介绍
近年来,“超高清+5G”引发了多媒体计算与视频通信领域的新一轮重大技术革新,视频编解码技术作为这当中的核心研究主题之一正在发生深刻变革,视频体验迎来了新的发展机遇。随着超高清、沉浸式视频内容数据量指数增长,视频压缩和传输的需要进一步提升,亟需更高效的压缩编码方法。
智能视频编解码已成为工业界和学术界视频研究组织的重点探索领域,被誉为开启视频编解码技术研究下一个十年的金钥匙。端到端神经网络视频编码突破了传统混合编码框架约束,打破了三十年来视频编码局部优化研究思路,实现了从原始输入到解码重建的端到端率失真优化,支持视觉分析、内容理解、协同感知等不同应用场景。
本论坛聚焦智能视频编解码技术这一新兴主题,分别邀请来自学术界和工业界的优秀青年学者作报告并参与圆桌讨论。报告内容涵盖神经网络高效视频编码技术、语义编码方法、智能编码标准等。论坛还计划为视频编码尤其是智能视频编码领域的青年学者、从业人员和研究生提供交流平台,讨论领域核心科学问题,探讨视频编码未来发展,讨论智能视频编码领域各阶段职业发展和学术发展规划,分享个人成长经验,推动多媒体领域教育、科技、人才三位一体发展。
二、 论坛议程
时长:4小时
形式:研讨会,具体为每位讲者依次演讲,第三位讲者报告结束后为中场茶歇,最后是圆桌讨论环节,和听众一起对主题进行充分研讨
三、 组织者信息
贾川民,北京大学
个人简介:贾川民,北京大学王选计算机研究所助理教授,获北京邮电大学学士、北京大学博士学位,纽约大学视频实验室访问学者。研究领域为视频压缩与处理,发表国际期刊会议论文30余篇,曾获PCM 2017、IEEE MM 2018最佳论文奖,IEEE MIPR 2019最佳学生论文奖。主持基金委青年项目、博新计划和北京市科协青托等项目。提交标准技术提案50余项,授权发明专利10余项,担任CSIG多媒体专委会副秘书长、MPAI EEV标准组长、IEEE 1857.11标准软件负责人。
李礼,中国科学技术大学
个人简介:李礼,中国科学技术大学特任教授,2011和2016年在中国科学技术大学获得学士和博士学位,2016年至2020年在美国密苏里大学-堪萨斯分校从事博士后研究,2021年获批基金委海外优青项目。研究领域为图像视频编码、点云编码与处理等。已发表学术论文80余篇,获授权中美发明专利10余项,被国际国内标准化组织采纳提案10余项。获2019年国家技术发明二等奖,2016年ICME首届光场压缩挑战赛冠军。是ICME 2021,VCIP 2016以及VCIP 2022的组委会成员。
四、 讲者信息
(1)报告题目:基于深度学习的图像无损和近无损压缩方法
柏园超,哈尔滨工业大学
讲者简介:柏园超,现为哈尔滨工业大学计算学部助理教授。2020年博士毕业于北京大学信息科学技术学院,数字视频编码技术国家工程实验室,师从高文院士。攻读博士期间曾于2017年9月至2018年8月赴日本国立情报学研究所Gene Cheung教授课题组进行访问交流。2020年至2022年在深圳鹏城实验室从事博士后研究工作,合作导师为刘贤明教授。主要研究方向为图像视频压缩与处理、图信号处理和深度无监督学习,在TIP、TCSVT、TSP、CVPR、AAAI、ACMMM等计算机视觉和信号处理领域国际顶级期刊和会议发表论文20余篇,相关论文的谷歌学术总引用800余次。担任国际期刊TIP/TSP/TCSVT/TMM和国际会议CVPR/AAAI/ICCV等的审稿人。
报告摘要:高价值的科学数据,比如生物医学影像等,对于图像的可靠性有着严格的要求。图像有损压缩技术通常以峰值信噪比PSNR度量重构图像的平均失真水平,很可能出现重构图像平均失真水平不高,但是局部失真严重的情况。图像无损压缩和正无穷范数失真约束的近无损压缩,能够严格地保证图像像素级的误差上界,可以满足高价值数据的可靠性需求。随着深度学习技术的高速发展,深度生成模型和无监督学习逐渐被应用于图像无损和近无损压缩任务之中。本报告主要介绍了近年来深度生成模型,包括自回归模型、流模型和变分自编码器等,在图像无损和近无损压缩任务的研究进展,并且介绍了报告人近期在相关方面的研究工作。
(2)报告题目:面向机器视觉的图像压缩
高长生,中国科学技术大学
讲者简介:2023年6月获得中国科学技术大学博士学位,目前于该校从事博士后研究。读博期间于2022-2023年在瑞士洛桑联邦理工学院进行访问交流,并在2018-2019年在微软亚洲研究院任实习研究员。主要研究方向包括图像视频编码、特征编码以及机器视觉等,相关研究成果发表于TMM、TCSVT以及TIP等相关期刊和会议。
报告摘要:近年来,人工智能技术突飞猛进,特别是随着云计算、大数据、深度学习的成功应用,安防监控、辅助驾驶等领域的智能化程度迅速提高。在这些智能化应用领域中,产生的海量图像视频数据无法完全交由有限的人力分析,转而交由机器视觉算法进行分析理解。由于图像编码产生的失真会影响机器视觉分析的准确度,因此面向机器视觉的图像编码的研究应运而生。本报告首先分析智能化应用中图像语义信息保真与图像语义表示对图像理解的重要性,进而分别从如何在图像压缩过程中降低语义信息失真和如何降低机器视觉算法对图像中的语义信息解析难度两个方面分别提出提升图像理解准确度的方法。
(3)报告题目:JPEG AI标准进展及相关技术介绍
毛珏,华为通信技术有限公司
讲者简介:毛珏,华为公司高级工程师,2014年于浙江大学信息与电子工程系获得本科学位,2020年于浙江大学信息于电子工程学院获取博士学位,博士研究方向为视频编码中帧间预测技术。2020年4月加入华为,主要从事AI编解码研究,参与JPEG AI标准制定。同时,研究面向制作域的轻压缩技术方案,与北大联合提案,响应AVS标准组织制作域轻压缩需求,申请十余项专利、三项技术提案被JPEG AI标准采纳,发表顶会论文ECCV。
报告摘要:JPEG AI是一个全新的、完全基于深度学习的图像编码标准,利用神经网络非线性变换与生成能力,实现高效的图像压缩编码。在多个质量评价指标的综合测评下,JPEG AI已获得超过VVC Intra 20%的编码压缩性能提升。本报告主要介绍JPEG AI标准的最新进展情况,以及报告人在JPEG AI标准中相关技术的研究。
(4)报告题目:快手智能视频评估与处理
徐鹏程,北京快手科技有限公司
讲者简介:徐鹏程,快手音视频算法工程师,2015年于清华大学获学士学位,2020年于清华大学获博士学位。主要从事视频增强及修复算法、视频智能编辑算法、图像质量评估算法等方面的研究。
报告摘要:在世界各地,每天有数以亿计的用户在快手平台记录和分享不同的生活。庞大的视频创作量也带来了视频质量参差不齐的问题:由于用户采集设备和制作技术的差异,视频可能会包含噪音、模糊、伪影等失真现象;视频转码压缩和传输过程也可能会带来视频质量的损失。为此,快手建立了一套可靠的视频质量评估体系KVQ和自适应的视频质量增强修复方案KEP/KRP,用于感知视频存在的质量问题并针对性地进行增强和修复。KVQ和KEP/KRP已经应用于快手音视频架构,每天为数亿快手用户呈现更好的视频画质和观看体验。
(5)报告题目:基于类小波变换的智能图像编码方法
马海川,北京华为数字技术有限公司
讲者简介:马海川,博士,北京华为数字技术有限公司算法研究员。2017年于西安电子科技大学获学士学位,2022年于中国科学技术大学获博士学位。主要从事图像/视频编码领域的研究,在相关领域发表论文10余篇。获2022年度CSIG优秀博士学位论文提名奖。
报告摘要:小波变换在图像编码领域得到了广泛的应用,著名的JPEG200就是一种小波图像编码方法。现阶段的小波图像编码方法与最先进的图像编码方法如BPG之间存在较大的性能差距。为了进一步提高该类方法的压缩性能,本文首先提出了一种可学习的类小波变换模型。该模型以提升结构为基础,引入了卷积神经网络替换提升结构中的线性滤波器。同时构造了一种自编码器结构对类小波变换模型进行优化,使其针对自然图像具有更好的能量集中性。在类小波变换的基础上,本文进一步实现了基于神经网络的熵编码和去量化模块,从而得到了可直接面向率失真损失优化的端到端小波图像编码方法。实验结果表明端到端优化后的图像编码效率显著优于JPEG2000 等方法,相比现有的端到端图像编码方法也具有更好的通用性。
(6)报告题目:智能视频压缩编码的架构设计与应用
鲁国,上海交通大学
讲者简介:鲁国,上海交通大学助理教授、博士生导师。2020年6月于上海交通大学获得博士学位,2017年到2019年在悉尼大学进行学术访问。主要研究方向包括视频压缩、视频增强、计算机视觉等。主持自然科学基金青年项目以及和华为、阿里横向项目,获中国图象图形学会优秀博士论文奖、上海交通大学优秀博士论文奖。至今已经在T-PAMI、T-IP、CVPR等国际顶级期刊和会议上发表20余篇论文。担任计算机视觉顶级期刊IJCV客座编辑、T-CSVT客座编辑,在CVPR2021、VCIP2020、ACMMM2021等国际会议上组织多个专题讲习班。
报告摘要:近年来,通过利用大规模训练数据和卷积神经网络的表达能力, 基于深度学习的视频压缩编码技术引起了越来越多的研究兴趣。然而目前的智能视频压缩编码性能还不能超越最新的视频压缩标准,其性能有待进一步提升。本报告将介绍在端到端视频压缩编码领域的最新进展,讨论基于深度学习的视频压缩编码框架设计,以及围绕运动估计、残差压缩、熵编码模型的技术进展,研究性能提升的关键技术路线。此外,本报告还将介绍智能视频压缩编码在语义通信以及沉浸式视频压缩编码中的应用,探索智能压缩编码的潜在应用前景。
(7)报告题目:基于深度学习的图像和视频编码(AI Codec)
杨韧,商汤研究院
讲者简介:杨韧,商汤研究院高级研究员,博士毕业于瑞士苏黎世联邦理工学院(ETH Zurich)。2018-2019年于微软亚洲研究院(Microsoft Research Asia)任实习研究员。2019年硕士毕业于北京航空航天大学,硕士学位论文荣获中国电子学会优秀硕士论文奖和 Winner of Three Minute Thesis Competition (ICME 2019)。研究方向主要包括基于深度学习的图像视频压缩、视频质量增强、超分辨率重构等。近年来在 CVPR、ICCV、IJCAI、ICME、IEEE T-PAMI、IEEE T-IP、IEEE T-CSVT、IEEE J-STSP 等国际高水平会议和期刊共发表论文二十余篇。申请中国发明专利4项、美国专利1项、软件著作权1项。 曾在国际人工智能会议 IJCAI 2022 担任 Session Chair,在 IJCAI 2021 担任高级程序委员会(Senior Program Committee)成员,并长期担任 CVPR、ICCV、ECCV、AAAI、IJCAI、ICLR、NeurIPS、IJCV、IEEE T-PAMI、IEEE T-IP、IEEE J-STSP、IEEE T-MM、IEEE T-CSVT等会议和期刊审稿人。作为共同组织者和讲者在VCIP 2020、CVPR 2020和ACM MM 2021等国际会议上组织有关数据压缩的Tutorial并做演讲。此外还担任第六届、第七届、第八届NTIRE Workshop (CVPR 2021/2022/2023) 和AIM 2022 Workshop (ECCV 2022) 的共同组织者,并在Workshop中组织视频增强和超分辨率挑战赛。
报告摘要:近年来,网络图像和视频的数据量飞快增长、HD和UHD图像和视频的占比也显著上涨,因此高效图像视频编码在互联网技术中占据重要地位,是当下互联网发展的迫切需求。随着深度学习在人工智能领域的兴起,基于深度学习的图像和视频编码技术(AI Codec)成为最近几年学术界和工业界的研究热点。本报告将详细介绍AI Codec的发展历史、研究现状、标准化进程以及工业界的应用,同时还会介绍该领域的新兴研究方向和与之相关的跨领域研究成果。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn