微信里点“发现”,扫一下
二维码便可将本文分享至朋友圈
演讲摘要:认知科学的体验革命带来人们对于从语言理解意义的新观点:思考以及使用语言的能力是我们的肉身与头脑合作的成果。肉身包括视觉、听觉、嗅觉、触觉和运动神经等各种各样的模态。人类的孩子是在多模态环境下学习语言,这也是目前AI欠缺的部分。该报告将介绍文继荣教授团队在语言和图像的跨模态理解方面的一些工作,从视觉和语言的关系出发,利用互联网产生的千万甚至上亿的成对图片与文字,用自监督的任务完成一个目前最大的中文通用图文预训练模型“悟道∙文澜”,由此去初步探索AI在多模态环境中学习语言的可能性。通过分析语言从单模态到多模态学习发生的变化,一些与人类认知密切相关的现象得以被发现。
讲者简介:文继荣教授担任中国人民大学信息学院院长、高瓴人工智能学院执行院长。长期从事大数据和人工智能领域的研究工作,在国际著名学术会议和期刊上发表论文200余篇,引用16000余次。担任国际会议SIGIR 2020程序委员会主席、国际期刊ACM TOIS和IEEE TKDE副主编等。曾任微软亚洲研究院高级研究员和互联网搜索与挖掘组主任。到中国人民大学工作后,参与创立了高瓴人工智能学院,积极致力于推动人民大学人工智能和大数据的研究和教学,特别是新技术与人文社会科学的交叉。2013年入选国家“海外高层次人才计划”特聘专家,2018年入选首批“北京市卓越青年科学家”,2019年担任北京智源人工智能研究院首席科学家。曾经担任CCF YOCSEF总部AC。