微信里点“发现”,扫一下
二维码便可将本文分享至朋友圈
演讲摘要:在跨模态智能分析方面,我将介绍语言指导的3d物体检测、物体分割以及视觉导航三方面的工作。1) 我们提出了一个语言指导的细粒度3D视觉定位算法TransRefer3D。该网络利用Transformer 的置换不变性来对3D点云进行建模。2)给定一个自然语言表达式和一个图像/视频,语言指导的物体分割旨在生成语言表达式对应的像素级掩码。我们提出了一种跨模态渐进理解(CMPC)思路有效模拟人类行为,并将该思路分别实例化为CMPC-I(图像)和CMPC-V(视频)分割模型。3)语言指导的视觉导航要求智能体根据语言描述在室内环境进行自主探索并找到目标。我们提出了一种基于Transformer的跨模态知识推理(CKR)模型。在跨模态智能生成方面,本报告将介绍语言指导的图像编辑方面的工作。我们提出能预测一对图像的编辑操作的图像编辑描述网络(EDNet)能有效地实现跨模态的图像编辑。
讲者简介:刘偲,北京航空航天大学副教授,博导,主持国家优秀青年科学基金,中国图象图形学学会理事、副秘书长。博士毕业于中科院自动化所,曾于新加坡国立大学任研究助理和博后,曾任微软亚洲研究院(MSRA)铸星计划研究员。 2017年入选中国科协青年人才托举工程。获CCF-腾讯犀牛鸟专利奖、吴文俊人工智能优青奖、CSIG石青云女科学家奖。获ACM MM最佳技术演示奖和最佳论文奖各一次,以及IJCAI 最佳视频奖。带领学生获得10项CVPR、ICCV、ACL等国际顶级竞赛冠军。多次担任ICCV、CVPR、ECCV等顶级会议领域主席(AC)。主办了ECCV 2018、ICCV 2019、CVPR 2021‘Person in Context’workshop,在学术界和工业界均有较大影响力。 研究方向:跨模态多媒体智能分析(跨模态包含自然语言,计算机视觉以及语音等)以及经典计算机视觉任务(目标检测、跟踪和分割)。共发表了CCF A类论文50余篇,其研究成果发表于TPAMI、IJCV和CVPR等。Google Scholar引用7400+次。个人主页:http://colalab.org/ 。