视频智能生产论坛

简介

2020 年 6 月,中国社交娱乐视频报告指出目前短视频消费用户规模已达到 7.73 亿人,公会和 MCN 数量超 过 20000 家,预估市场规模超过 2 千亿元。互联网上充斥的大量简单拼接、粗制滥造的低质视频严重影响用户 体验。传统视频剪辑创作完全依赖人工,效率低,成本高,导致精品内容极度稀缺。如何利用计算机技术提升 视频生产的效率和质量,实现短视频生产的自动化和批量化,是当前工业界和学术界的一个热点课题。视频智 能生产中涉及哪些技术问题?这些技术问题在应用过程中又面临哪些新的难点和挑战?相关领域最新的技术进 展是怎样的?本专题邀请学术界和工业界的专家,分享视频智能生产中的几个代表性技术问题,介绍最新的挑 战和创新,并讨论工业界的应用实践和应用前景。

直播
日程
时间:10月24日13:30-15:30
地点:三层南京厅
主席

胡 尧

个人简介:阿里巴巴资深算法专家 2015 年博士毕业于浙江大学计算机学院 CAD&CG 国家重点实验室,博士期间发表国际顶级会议 / 期 刊论文 20 余篇,担任 NIPS、ICML、AAAI、IJCAI、CVPR 等国际顶级学术会议程序委员会委员,及 TPAMI、TIP、TNNLS、TKDE 和 TMM 等国际顶级期刊审稿人;先后在百度研究院和滴滴研究院从事 大规模机器学习算法工作的研发,2017 年底加入阿里巴巴,当前主要负责优酷智能视频推荐、内容理 解及计算机视觉相关业务。

主席

朱建科

个人简介:浙江大学计算机科学与技术学院教授,IEEE 资深会员 于 2009 年获计算机科学与工程博士学位,是同年度香港中文大学工程学院最优博士论文奖以及香港中 文大学青年学者论文奖获得者。攻读博士期间曾作为访问学者于 UIUC ECE 系 Image Foundation and Processing Group 交流。2009 年 1 月进入瑞士 ETH Zurich BIWI Computer Vision Lab 进行博士后阶段研 究。担任阿里巴巴 - 浙江大学前沿技术联合研究中心计算机视觉与视频分析实验室主任。研究方向为: 计算机视觉与模式识别。目前担任国际期刊 Neurocomputing 和 Springer Big Data Analytics 编委。是包 括 IEEE TPAMI/TIP/TNNLS、ACM Computing Survey/TOIS/TIST 在内的多个国际期刊审稿人,以及 AAAI/IJCAI/CVPR 等会议的 PC 和 SPC。

嘉宾

胡 尧

报告题目:视频智能生产应用

报告摘要:探讨如何对视频中的主体人物进行识别和分割

个人简介:2015 年博士毕业于浙江大学计算机学院 CAD&CG 国家重点实验室,博士期间发表国际顶 级会议 / 期刊论文 20 余篇,担任 NIPS、ICML、AAAI、IJCAI、CVPR 等国际顶级学术会议程序委员 会委员,及 TPAMI、TIP、TNNLS、TKDE 和 TMM 等国际顶级期刊审稿人;先后在百度研究院和滴 滴研究院从事大规模机器学习算法工作的研发,2017 年底加入阿里巴巴,当前主要负责优酷智能视频 推荐、内容理解及计算机视觉相关业务。

嘉宾

任海兵

报告题目: 视频素材分割及动态素材生产

报告摘要:5G 时代的到来,带动短视频市场的急速发展。短视频素材的质量是其成功与否的关键,自 动的获取高质量短视频素材可以极大的提高短视频的生产效率,降低人力成本。这需要精确的检测、分 割、跟踪等多个核心技术能力,其中图像和视频分割技术是难点中的难点。为了建立高质量素材提取能 力,促进短视频行业的快速发展,阿里文娱在图像和视频分割方面上进行了长期的研发,并达到业界前 沿水准。本分享将介绍阿里文娱在图像和视频分割领域的关键技术,以及其在业务中的应用。

个人简介:先在三星中国技术院工作 11 年,先后担任计算机视觉和医疗图像算法团队负责人,曾带领 团队获得 FRGC 人脸识别竞争第一名。2014 年加入英特尔中国研究院,从事机器人视觉感知研究工作。 2018 年底,任海兵加入阿里文娱摩酷实验室,从事视频理解算法研究。任海兵在计算机视觉领域有 20 多年的研究经验,担任 CVPR、ICCV、ECCV 等国际顶级学术会议审稿人,发表 30 余篇论文,拥有 30 多项专利。

嘉宾

黄 高

报告题目:动态深度神经网络

报告摘要:本报告将介绍一类在推理过程中能够根据输入的变化改变自身结构的自适应神经网络模型。 相较于当前主流的静态深度模型,如 ResNet、DenseNet、MobileNet 和 NASNet 等,动态网络能够针对 输入的变化相应地调整自身的深度、宽度或者参数值等,达到"按需分配计算"的目的,进而提升网络的 计算效率,降低系统功耗。报告将介绍适应样本变化和适应空间变化的两类动态网络模型,并讨论现有 方法的局限以及未来发展前景。

个人简介:2015 年获清华大学博士学位,2015 年至 2018 年在美国康奈尔大学计算机系从事博士后 科研工作。主要研究领域为深度学习和计算机视觉,提出了主流卷积网络模型 DenseNet。目前在 NeurIPS,ICML,CVPR等国际顶级会议及 IEEE多个汇刊共计发表学术论文 50余篇,被引用 16000余次。 获 CVPR 最佳论文奖、阿里巴巴达摩院青橙奖、世界人工智能大会 SAIL 先锋奖、中国自动化学会优秀 博士学位论文、全国百篇最具影响国际学术论文和吴文俊人工智能自然科学一等奖等荣誉。

嘉宾

吴心筱

报告题目:跨媒体视觉推理的短视频标题生成

报告摘要:短视频标题作为一种高度凝练且具有吸引力的视频概要描述,能引导用户快速精准地找到自 己感兴趣的视频内容,在视频推荐、视频检索、视频监控等领域具有广阔的应用前景。目前短视频标题 生成主要依靠人工编辑和审核,面对海量短视频数据,这是一项费时费力、代价巨大的工作。因此,如 何让计算机自动生成既忠实于原内容、又具有吸引力的标题具有重要的实际意义。短视频标题生成是人 工智能前瞻性研究方向,结合了计算机视觉和自然语言处理两大领域,属于新兴交叉课题,具有重要的 的学术意义。视频数据具有非结构化、冗余性强、维度高等特性,而自然语言则呈现出语义结构化、高 度概括、逻辑性强等特点,因此如何跨越视觉信息与自然语言之间的语义鸿沟和模态鸿沟,将纷繁复杂 的视频内容映射到言简意赅的语句空间,是短视频标题生成面临的难点和挑战。

个人简介:在 2010 年 7 月在北京理工大学获得计算机应用技术工学博士学位,并获得北京理工大学优 秀博士学位论文奖。2010 年至 2011 年赴新加坡南洋理工大学计算机学院从事博士后研究。2011 年 12 月加入北京理工大学计算机学院任讲师。