第四届中文信息技术发展战略研讨会——融合知识和数据的自然语言处理

简介

自然语言处理技术是人工智能技术的最重要分支之一,被誉为“人工智能皇冠上的明珠”。近年来,各种来源的标注数据、未标注数据、自然标注数据为基于机器学习、深度学习的自然语言处理提供了海量的训练语料,为自然语言处理算法性能的巨大提升提供了数据保障;知识图谱、百科知识、问答知识等知识资源为自然语言处理技术的实用化进一步插上了翅膀。本次论坛将以融合知识和数据的自然语言处理为主题,邀请多位来自国内著名高校和人工智能企业的知名自然语言处理专家介绍他们在知识图谱、知识获取、预训练模型、表示学习等方面的最新研发进展。


直播
日程
时间:10月23日16:00-18:00
地点:二层南京厅
主席

黄萱菁

个人简介:复旦大学计算机科学技术学院教授、博士生导师 主要从事自然语言处理、信息检索和社会媒体分析研究。兼任中国计算机学会自然语言处理专委会副 主任、学术工作委员会委员,中国中文信息学会常务理事、社会媒体专委会副主任。在 CCF A/B 类高 水平国际学术期刊和会议上发表论文百余篇,负责的多个科研项目受到国家自然科学基金、科技部、 教育部、上海市科委的支持。曾入选 2020 年度人工智能全球女性、福布斯中国 2020 科技女性榜。

主席

林鸿飞

个人简介:大连理工大学教授、博导 主要研究领域为自然语言处理。担任中国计算机学会高级会员、中国人工智能学会理事、中国中文信 息学会常务理事、辽宁省计算机基础教育学会理事长。担任《中文信息学报》、《模式识别与人工智能》、《小 型微型计算机系统》、《大连理工大学学报》等编委。承担国家 863 高科技计划、国家重点研发计划项目、 国家自然科学基金等项目十余项。入选辽宁省"百千万人才工程"百人层次。

嘉宾

陈华钧

报告题目:知识图谱与低资源学习

报告摘要:低资源是很多真实业务问题所面临的迫切挑战,本报告尝试探讨知识图谱与低资源问题 之间的关系。一方面,讨论低资源条件下知识图谱的构建与推理问题,分别介绍了对抗关系学习 125 (Adversarial Relational Learning),元关系学习(Meta Relational Learning)以及融合图神经网络等 不同方法在长尾关系抽取、少样本关系预测等方面的应用。另外一方面,进一步探讨知识图谱与零样 本学习(Zero-shot Learning)之间的关系,提出利用知识图谱建模标签语义空间可以更加有效实现零 样本条件下的知识迁移,同时增强零样本学习的可解释性。

个人简介:主要研究方向为知识图谱、自然语言处理、大数据系统、智能生物医药等。 浙大阿里知识 引擎联合实验室主任、浙江省大数据智能计算重点实验室副主任、爱思唯尔 Elsevier Big Data Research 主编、CCF 杰出演讲者、中国人工智能学会知识工程与分布智能专业委员会副主任、中国中文信息学 会语言与知识计算专业委员会副主任、中文开放知识图谱 OpenKG 牵头发起人。在 WWW/WSDM/ ISWC, IJCAI/AAAI/KR, ACL/EMNLP/NAACL, VLDB/ICDE, IEEE Computational Intelligence, IEEE Intelligent System, TKDE, AI in Medicine 等国际顶级会议或期刊上发表多篇论文,并曾获国际语义网会 议 ISWC2006 最佳论文奖(第一作者)。作为负责人主持国家自然科学基金重点项目、国家重点研发 计划项目、国家重大科技专项项目及企业合作项目等二十余项。曾获得教育部技术发明一等奖、国家 科技进步二等奖、阿里巴巴优秀学术合作奖、博文视点图书奖等奖励。

嘉宾

刘知远

报告题目:开放域知识获取技术及其挑战

报告摘要:从海量文本中自动获取结构化知识,是构建和扩展大规模知识图谱,实现知识指导的自然 语言处理的关键技术。现有实体关系抽取技术,主要从单句中挖掘实体关系的语义模式,面临知识覆 盖度低等问题。如何面向开放领域的复杂语境进行建模,是知识获取面临的关键挑战之一。本报告将 主要介绍在文档级关系抽取、少次学习关系抽取、新类型关系识别等方面的最新进展,并展望开放域 关系抽取的未来发展方向。

个人简介:主要研究方向为表示学习、知识图谱和社会计算。2011 年获得清华大学博士学位,已在 ACL、IJCAI、AAAI 等人工智能领域的著名国际期刊和会议发表相关论文 80 余篇,Google Scholar 统 计引用超过 1 万次。承担多项国家自然科学基金。曾获中文信息学会青年创新奖,入选《麻省理工科 技评论》"35 岁以下科技创新 35 人"中国区榜单(MIT TR-35 China)、智源青年科学家、中国科协青 年人才托举工程。

嘉宾

段 楠

报告题目:Learning Universal Representations via Multitask Multilingual Multimodal Pre-training

报告摘要:In this talk, we will first review the most representative pre-trained models and then present a Multitask Multilingual Multimodal Pre-trained model (M^3P) that combines multilingual-monomodal pretraining and monolingual-multimodal pre-training into a unified framework via multitask learning. This model learns universal representations that can map objects occurred in different modalities or expressed in different languages to vectors in a common semantic space. To verify the generalization capability of M3P, we fine-tune the pre-trained model for different types of downstream tasks: multilingual image-text retrieval, multilingual image captioning, multimodal machine translation, multilingual natural language inference and multilingual text generation. Evaluation shows that M3P can (i) achieve comparable results on multilingual tasks and English multimodal tasks, compared to the state-of-the-art models pre-trained for these two types of tasks separately, and (ii) obtain new state-of-the-art results on non-English multimodal tasks in the zeroshot or few-shot setting. In the last part, we will present our current progress and future plan on learning better universal representations based on different types of knowledge.

个人简介:从事包括自动问答、语义分析、多语言多模态预训练、机器推理等在内的自然语言处理基 础研究,多项成果用于必应搜索、必应广告、微软新闻、语音助手等人工智能产品。CCF A/B 类会议 发表学术论文 80 余篇,著有《智能问答》。