自然语言生成:现状与挑战

简介

1. 基于深度学习的 NLG 的真实水平如何?

2. GPT-3 是否具有智能?

3. 当前 NLG 所面临的主要问题是什么?

4. 未来发展趋势是什么?

直播
日程
时间:10月22日 13:30-15:30
地点:三层重庆厅
主席

万小军

报告题目:多样化文本生成

报告摘要:能够生成多样化的文本是很多文本生成应用的重要需求之一。尽管基于深度学习的自然语 言生成取得了令人兴奋的进步,但目前的自然语言生成系统仍面临生成文本的多样性不足等问题。本 次演讲将与大家探讨多样化文本生成技术。

个人简介:北京大学王选计算机研究所博士生导师,语言计算与互联网挖掘研究室负责人,在北京大学获得学 士、硕士与博士学位。研究方向为自然语言处理与文本挖掘,主要研究内容包括自动文摘与文本生 成、情感分析与语义计算等。曾担任计算语言学顶级国际期刊 Computational Linguistics 编委,目前 担任 TACL 执行编辑、Natural Language Engineering、JCST 编委,担任自然语言处理领域顶级国际会 议 EMNLP-IJCNLP 2019 程序委员会主席,多次担任相关领域重要国际会议领域主席或高级程序委员, 包 括 ACL、NAACL、EMNLP、EACL、IJCAI、AAAI 等。 荣 获 ACL2017 Outstanding Paper Award、 IJCAI 2018 Distinguished Paper Award、2017 年吴文俊人工智能技术发明奖、CCF NLPCC 青年新锐奖等。 与字节跳动、南都、三菱综研、科学网等单位合作推出多款 AI 写作机器人。

主席

宋睿华

报告题目:人工智能真的在创作吗?

报告摘要:尽管深度神经语言模型让生成一段通顺的自然语言越来越容易,人类的创作能力却不止于此。 在这个演讲中,我想从创作的独特性出发,探讨一下人工智能是否可以像人类的创作者一样写出新颖 的比喻或是编排出有戏剧冲突的台词。

个人简介:中国人民大学高瓴人工智能学院长聘副教授,曾任微软小冰首席科学家,微软亚洲研究院 主管研究员。研究兴趣是信息检索、数据挖掘和人工智能,特别是人工智能文本创作、自然语言的多 模态理解和多模态对话。2017 年,她主导开发的从图像生成诗歌的算法为人类史上正式出版的第一本 人工智能创作的诗集《阳光失了玻璃窗》生成了全部诗歌。她在国际会议和期刊上已发表论文 80 余篇, 担任着 SIGIR 的资深评审、EMNLP 的领域主席和多个国际会议的评审。2021 年,她即将担任 SIGIR 短文的评审主席。

嘉宾

黄民烈

报告题目:知识与语言生成

演讲摘要:现有的语言生成模型对知识的表示和利用存在显著不足。即使最强大的 GPT-2/3,依然存 在很显著的知识冲突问题,尤其是常识问题。讲者将介绍如何将知识融入语言生成模型的研究尝试, 并介绍在需要常识推理的语言生成任务(如常识解释、归因推理、故事结局生成等)中的应用。

个人简介:博士,清华大学计算机科学与技术系长聘副教授。他的研究兴趣包括深度学习、自然语言 处理等,尤其是对话系统、语言生成和情感分析。2019 年获得中国人工智能学会吴文俊人工智能科技 进步奖一等奖(排名第一),对话系统的研究于 2019 年获得国家自然科学基金重点项目资助。获得 SIGDIAL 2020 最佳论文奖、IJCAI 2018 杰出论文奖、NLPCC 2015 最佳论文奖、NTCIR2017 年短文本 对话生成评测冠军等奖项。担任顶级期刊 TNNLS(SCI 一区,影响因子 >11)编委,计算语言学顶级 期刊 TACL 的编委,ACL 2020/2016、EMNLP 2020/2019/2014/2011、AACL 2020 的领域主席,AAAI 2017-2021 和 IJCAI 2017-2020 的高级程序委员。他的主页位于 http://coai.cs.tsinghua.edu.cn/hml/。

嘉宾

史树明

报告题目:这些年,我们一起探寻的文本生成万金油

演讲摘要:在最近几年的学术论文中,“深度神经语言模型”几乎就是“文本生成技术”的代名词,俨然已 经成为应对文本生成任务的万金油;相比而言,传统语言模型、文本模板等技术则多了一丝沧桑和老 态龙钟的感觉。那么在真实的工业场景中,这些不同的文本生成技术的使用情况、定位与角色是怎样 的呢?讲者将分享把文本生成技术用于智能对话、电竞解说、诗词对联歌词创作等场景中的实践情况, 并分析对比不同技术在不同场景的下的适用性和优劣。

个人简介:博士,腾讯 AI Lab 自然语言处理中心负责人、专家研究员,主要研究方向为信息抽取、语 义理解和智能人机交互。本硕博毕业于清华大学计算机系,曾就职于微软亚洲研究院和阿里巴巴集团。 他在 ACL、EMNLP、AAAI、IJCAI、WWW、SIGIR、TACL 等国际会议和期刊上发表科研论文 80 多篇, 多次担任 ACL、EMNLP、WWW、AAAI 等会议的程序委员会委员以及 TOIS、TKDE 等期刊的审稿人。 除学术研究外,他在搜索、知识图谱、自然语言理解、对话机器人等方面有丰富的系统开发和工程落 地经验。在腾讯 AI Lab,他的团队主导构建的系统和开源数据包括文本理解系统 TexSmart(与同类系 统相比具有细粒度 NER、语义联想等特色功能)、开放域对话服务(为腾讯云小微、AI 开放平台、游 戏知己等多项业务提供闲聊服务)、交互翻译系统 TranSmart(首个公开的交互式机器翻译互联网落 地产品)、大规模中文词向量数据(包含 800 万词汇,相比同类数据在覆盖率、新鲜度及准确性上均 有提升)等。

嘉宾

肖欣延

报告题目:自然语言生成赋能内容创作

演讲摘要:受益于深度学习特别是预训练技术的突破,自然语言生成模型输出的文本质量不断提升, 这是否意味着人工智能赋能内容创作的大规模应用马上到来?为探讨此问题,本报告将介绍百度在自 然语言生成方向的技术进展,以及相关技术在多模内容创作中的应用,并基于百度的实践经验探讨自 然语言生成的前景和挑战。

个人简介:百度主任架构师,篇章理解与语言生成技术负责人。博士毕业于中科院计算所。长期从事 自然语言处理相关研究和应用,主要兴趣包括文本生成、情感分析、信息抽取、信息推荐、机器翻译等, 已发表包括 ACL、EMNLP、AAAI 等重要国际会议在内的 20 余篇自然语言处理领域文章。研究成果在 百度搜索、百度信息流、百度语音播报、百家号等多个重要产品中得到广泛应用。

嘉宾

李 磊

报告题目:Xiaomingbot – 多语言多模态新闻生成与播报

演讲摘要:本次报告将介绍 Xiaomingbot,一款多语言多模态的新闻机器人。她能实现从结构化数据到 多语言新闻文本的生成,并生成摘要。利用跨语言声音克隆技术,她也具备将多语言文本用同一种播 报者的语音语调播出。利用脸部表情动作同步技术,她能合成生动的虚拟主播,脸部动作保持与语音 播报文字的同步。自问世以来,已经在社交媒体生产文稿 60 万余篇。我们也将展望自动文本写作技术 的挑战和未来发展前景。

个人简介:博士,毕业于上海交通大学和卡耐基梅隆大学计算机系。曾获 2012 年美国计算机学会 SIGKDD 最佳博士论文第二名、2017 年吴文俊人工智能技术发明二等奖、2017 年 CCF 杰出演讲者、 2019 年 CCF 青竹奖。在机器学习、数据挖掘和自然语言处理领域于国际顶级学术会议发表论文 70 余 篇,拥有十余项技术发明专利。担任 CCF 自然语言处理专委委员,2017 KDD Cup、2018 KDD Handson Tutorial、2019-2020KDD Sponsorship 联合主席 , IJCAI2017、AAAI 2019、AAAI2020 资深程序委员, EMNLP2019、EMNLP2020、AACL2020 领域主席。