会议详情

TF58:视觉基础模型研究及应用

距离开始时间还有
直播回看
会议介绍

视觉基础模型,是最近计算机视觉研究领域和应用领域里的热门话题。从大规模数据,如无标注数据、图文数据、或者多模态数据等,预训练得到的视觉基础模型,提升了许多视觉下游任务、以及某些垂直场景上(如OCR等)性能。然而,视觉基础模型特别是大模型的研究,方兴未艾,如何实际应用场景中产生更大的价值,值得我们进一步探索。

收费说明 (单位:¥)
会议门票
门票类型 参会者身份 5.9~5.17
会议注册费(线上参会) CCF会员 ¥0
非会员 ¥99
会议日程
TF58视觉基础模型及应用

主持人:何中军 CCF TF算法与AI SIG主席,百度人工智能技术委员会主席

王井东 百度计算机视觉首席科学家

时间
主题讲者
9:30-9:35
活动介绍及开场致辞

何中军

9:35-9:55Context Autoencoder for Scalable Self-Supervised Representation Pretraining

王井东

百度计算机视觉首席科学家


9:55-10:15Florence: A New Foundation Model for Computer Vision

肖斌

微软Cloud & AI计算机视觉研究组高级研究员

10:15-10:35Label-Efficient Visual Perception via Multimodal Supervision and Distillation

崔崟

Senior Research Scientist at Google

10:30-11:25Panel Discussion:A roadmap of vision foundation model

王井东, 肖斌, 崔崟, 张磊,屠卓文

11:25-11:30活动总结何中军





会议主席

何中军

百度人工智能技术委员会主席

长期从事机器翻译研究与开发,研发了全球首个互联网神经网络机器翻译系统及语义单元驱动的机器同传系统。曾获国家科技进步二等奖、中国电子学会科技进步一等奖、北京市科技进步一等奖、中国专利银奖等多项奖励。


段亦涛

网易有道首席科学家

本科与硕士毕业于北京航空航天大学,于2007年获UC Berkeley计算机科学专业博士学位,研究方向包括大规模分布式计算,数据挖掘,机器学习,密码学以及安全和隐私。在博士期间加入有道,参与完成有道底层架构,目前任网易有道首席科学家,负责有道技术创新与相关实践工作。主要关注以深度学习为代表的最新AI技术在互联网各个领域的应用,包括机器翻译,图像识别等。主导了有道神经网络机器翻译YNMT等核心技术的研究和开发。



特邀讲者

 

王井东

百度计算机视觉首席科学家

主题:

《基于Context Autoencoder的自监督表征预训练》

《Context Autoencoder for Scalable Self-Supervised Representation Pretraining》

主题简介:

自监督表征预训练旨在从无标记的图像中学习编码器,使得学到的表征具有语义并有利于下游任务。在本次分享中,介绍了一种新颖的掩码图像建模方法,即Context Autoencoder (CAE),用于规模化的的自监督表征学习预训练。核心思想包括在隐表示空间中进行从可见块到掩码块的预测,编码器仅用于表示学习,表示学习仅由编码器进行。此外,会讨论为什么掩码图像建模优于对比预训练(例如 SimCLR、MoCo),以及为什么对比学习的性能与 ImageNet上的监督预训练相当。

Self-supervised representation pretraining aims to learn an encoder from unlabeled images, such that the encoded representations take on semantics and benefit downstream tasks. In this talk, I present a novel masked image modeling approach, context autoencoder (CAE), for scalable self-supervised representation training. The core ideas include that predictions are made in the latent representation space from visible patches to masked patches and that the encoder is only for representation learning and representation learning is only by the encoder. I also discuss why masked image modeling potentially outperforms contrastive pretraining (e.g., SimCLR, MoCo) and why contrastive learning performs on par with supervised pretraining on ImageNet. In addition, I show that linear probing and the extended version, attentive probing, are more suitable than fine-tuning on ImageNet for pretraining evaluation.

个人简介:

百度计算机视觉首席科学家,负责计算机视觉领域的研究、技术创新和产品研发。加入百度之前,曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。他的代表工作包括高分辨率神经网络(HRNet)、基于有监督的区域特征融合(DRFI)的显著目标检测及基于近邻图的大规模最近邻搜索(NGS,SPTAG)等。他曾担任过许多人工智能会议的领域主席,如 CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等。他现在是IEEE TPAMI和IJCV的编委会成员,曾是IEEE TMM和IEEE TCSVT编委会成员。因在视觉内容理解和检索领域的杰出贡献,他被遴选为国际电气电子工程师学会和国际模式识别学会会士 (IEEE/IAPR Fellow)、国际计算机协会杰出会员。

Jingdong Wang is a Chief Scientist for computer vision with Baidu. His team is focusing on conducting product-driven and cutting-edge computer vision/deep learning/AI research and developing practical computer vision applications. Before joining Baidu, he was a Senior Principal Researcher at Microsoft Research Asia. His areas of interest are computer vision, deep learning, and multimedia search. His representative works include deep high-resolution network (HRNet), discriminative regional feature integration (DRFI) for supervised saliency detection, neighborhood graph search (NGS, SPTAG) for large scale similarity search. He has been serving/served as an Associate Editor of IEEE TPAMI, IJCV, IEEE TMM, and IEEE TCSVT, and an area chair of leading conferences in vision, multimedia, and AI, such as CVPR, ICCV, ECCV, ACM MM, IJCAI, and AAAI. He was elected as an ACM Distinguished Member, a Fellow of IAPR, and a Fellow of IEEE, for his contributions to visual content understanding and retrieval.


肖斌

微软Cloud & AI计算机视觉研究组高级研究员

主题:《Florence: A New Foundation Model for Computer Vision》

主题简介:在多模态的大规模数据集上进行训练,通过少量的数据微调可以适应各种下游任务的计算机视觉基础模型,对于现实世界的计算机视觉应用至关重要。2021年底,微软发布Florenc基础模型,通过结合来自 Web的大规模图像 - 文本数据训练,可以轻松地适应各种计算机视觉任务,包括分类、检索、目标检测、视觉问答(VQA)、图像描述、视频检索和动作识别。模型发布时,在 44 个表征基准测试中多数都取得了新的 SOTA 结果,例如 ImageNet-1K 零样本分类任务,top-1 准确率为 85.7,ImageNet-1k微软后获得90.45 top-1准确率, COCO 微调任务获得 62.4 mAP,VQA 任务获得 80.36 mAP。

个人简介:现任微软Cloud & AI计算机视觉研究组高级研究员。主要研究方向为计算机视觉,大规模数据/语言多模态模型训练,物体检测/分割,人体姿态识别等。在CVPR/ECCV/ICCV/ICLR/AAAI等顶尖学术会议发表论文20余篇。他的多项研究技术成果已经开源并且应用到微软Azure等产品。


崔崟

谷歌高级研究科学家

Senior Research Scientist at Google

主题:

《通过多模态监督和蒸馏的标签高效视觉感知》

《Label-Efficient Visual Perception via Multimodal Supervision and Distillation》

主题简介: 

在本次演讲中,将重点介绍我们最近的两项以构建标签高效的计算机视觉模型的工作(VATT 和 ViLD)。在 VATT 中,我们使用统一的 Transformer 编码器从未标记的原始视频、音频和文本中学习多模态特征表示。在ViLD 中,我们通过把预训练的视觉-语言模型(如 CLIP)中的知识蒸馏到Mask R-CNN中以实现强大的开放词汇目标检测。

In this talk, I will focus on two of our recent work (VATT and ViLD) towards building label-efficient computer vision models. In VATT, we learn multimodal representations from unlabeled raw video, audio and text using a unified Transformer encoder. In ViLD, we distill from pre-trained vision-language models such as CLIP to enable strong open-vocabulary detection using off-the-shelf Mask R-CNN.

个人简介:

谷歌高级研究科学家。研究重点是多模态和标签高效的视觉感知。在加入 Google 之前,他于2019 年获得康奈尔大学计算机科学博士学位,导师为Serge Belongie 教授。崔崟还在各大计算机视觉会议上共同组织了 COCO 视觉识别研讨会和细粒度视觉分类研讨会。

Yin Cui is a Senior Research Scientist at Google. Yin's research focuses on multimodal and label-efficient visual perception. Before joining Google, he received a Ph.D. in Computer Science from Cornell University in 2019, advised by Professor Serge Belongie. Yin also co-organized COCO Visual Recognition Workshops and Fine-Grained Visual Categorization Workshops at major computer vision conferences.


张磊

粤港澳大湾区数字经济研究院(IDEA)讲席科学家

Chair Scientist of Computer Vision and Robotics at IDEA

个人简介:

负责计算机视觉与机器人研究方向,同时兼任香港科技大学(广州)客座教授。他曾在微软亚洲研究院、微软总部研究院及计算机视觉相关产品部门任首席研究员,长期带领研究组从事计算机视觉方向的基础研究和大规模图像分析、物体检测、视觉语言多模态理解方面的应用研究。研究成果被广泛用于微软必应搜索及认知服务云计算平台。张磊博士在计算机视觉等相关领域发表论文150多篇,并拥有60多项美国授权专利。因其对大规模图像识别和多媒体信息检索方面做出的贡献而获选为IEEE Fellow。

Lei Zhang is currently a Chair Scientist of Computer Vision and Robotics at International Digital Economy Academy(IDEA) and an Adjunct Professor of Hong Kong University of Science and Technology (Guangzhou). Prior to this, he was a Principal Researcher and Research Manager at Microsoft, where he has worked since 2001 in Microsoft Research Asia (MSRA), Microsoft Research(MSR, Redmond), and other computer vision-related product teams. He has led research teams for years, conducting research on computer vision with applications in large-scale image analysis, object detection, and vision-language understanding. His research has led to many practical impacts in Bing Multimedia Search and Microsoft Cognitive Services. He has published more than 150 papers in top conferences and journals and holds more than 60 US-granted patents. He was named as IEEE Fellow for his contribution in large-scale visual recognition and multimedia information retrieval.


屠卓文

加州大学圣地亚哥认知科学系教授

Professor of Computer Science and Engineering, University of California San Diego

个人简介:

屠卓文现任加州大学圣地亚哥分校认知科学系教授,在此之前,他在加州大学洛杉矶分校任职,2011年至2013年间,他在微软亚洲研究院工作。硕士毕业于清华大学,博士毕业于俄亥俄州立大学。曾获2003 年大卫马尔奖和 2015 年大卫马尔奖荣誉奖,IEEE 院士。

Zhuowen Tu is a full professor of Cognitive Science and also affiliated with the Department of Computer Science and Engineering, University of California San Diego. Before joining UCSD in 2013 as an assistant professor, he was a faculty member at UCLA. Between 2011 and 2013, he took a leave to work at Microsoft Research Asia. He received his Ph.D. from the Ohio State University and his M.E. from Tsinghua University. He is a recipient of the David Marr Prize award 2003 and a recipient of the David Marr Prize Honorable Mention award 2015. He is a Fellow of the IEEE.

 



 


参会说明

1、如报名后无法参加,请及时于活动开始前发送邮件申请取消(联系邮箱:tf@ccf.org.cn),无故缺席将影响下一期活动的参与。

2、活动采用线上模式:腾讯会议。移动端可在微信小程序中搜索“腾讯会议”登录会议,或下载“腾讯会议”APP登录。客户端请搜索“腾讯会议”下载并登录。

3、会议号和密码将在活动当天通过邮件短信通知,输入会议号和密码即可加入。

4、请尽量于活动当天3点前完成报名,3点后报名人员请及时查看邮箱,会议号和密码将通过邮件发送。

5、CCF会员免费参加,非会员99元/次,加入会员可免费参与全年47场活动。




会员权益

l  专业会员/高级会员/杰出会员/会士:200元/年

l  学生会员:50元/年

具体权益点击链接查看:个人会员

l  申请公司会员,可享受更多免费名额、品牌宣传及其他权益,点击查询公司会员或咨询电话0512-83912127

长按识别或扫码入会

 



联系信息

版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn

京ICP备13000930号-4 京公网安备 11010802032778号