ChinaMM2023专题论坛
大模型背景下的语音信号理解理论与技术
一、 论坛介绍
大模型超强的学习和自我迭代能力极大促进人工智能理论与技术的发展,成为当前研究的大热门。大模型背景下的语音信号理解方法具备建模海量低成本语音数据、学习复杂多样的特征模式的能力,是满足智能媒体监控、社会公共安全以及人机交互等语音场景下定制化应用需求的关键。作为一种前沿技术,依托大模型的语音信号理解的理论与技术尚未完善,落地应用还未达到理想的性能和规模。本论坛拟面向“大模型背景下的语音信号理解理论与技术”展开学术讨论,碰撞思想,展现智慧,交流经验,探索依托大模型的语音信号理解的相关理论、方法、系统等方面的研究进展、挑战和趋势,从而进一步促进AI赋能语音场景下定制化应用的落地。
二、 论坛议程
时长:半天
形式:采取线下会议论坛的形式,以丰富论坛形式,邀请国内外4-6名专家,就大模型背景下的语音信号理解的现状、前沿技术、落地应用、技术难点等问题进行主题演讲、学术交流等。
三、 组织者信息
(1)毛启容,江苏大学
个人简介:博士,教授,博士生导师,江苏大学计算机科学与通信工程学院院长。国家重点项目主持人,江苏省“333人才工程”高层次人才(第二层次),江苏省“青蓝工程”学术带头人,江苏省“六大人才高峰”高层次人才,镇江市有突出贡献的中青年专家,镇江市师德先进个人,国家级一流专业负责人,江苏省大数据泛在感知与智能农业应用工程研究中心主任,江苏省一流课程负责人。
主要研究方向:多媒体与智能信息处理,包括复杂环境下的图像、声音以及跨媒体融合处理。在情感计算、多媒体信息处理、人机交互方面的研究成果在计算机学报、CVPR、ACMMM、TIP、TMM等国内外知名学术会议/期刊上发表论文80余篇。基于视觉语音行为监控与展现的研究成果在社会公共安全、重症病人监护、医疗设备智能交互、驾驶员行为分析等领域进行推广应用,获得了很好的经济效益,获省部级及行业科技进步奖4项。
(2)吴梦玥,上海交通大学
个人简介:吴梦玥,上海交通大学计算机科学与工程系副教授,北京师范大学学士,澳大利亚墨尔本大学博士。上海市浦江人才获得者。中国计算机学会语音对话及听觉专业委员会委员。长期从事多媒体信息研究的工作,主持国自然科学基金项目、浦江人才项目;作为主要参与人员承担国自然重点项目、科技部国家重点实验室项目;过去三年在ICASSP、Interspeech、Multimedia、EMNLP、IEEE/ACM T-ASLP等智能音频处理及多媒体重要会议和期刊上发表论文40余篇。
主要研究方向:丰富音频信息处理及听觉认知计算。丰富环境声学研究上,首次提出音频摘要任务,在丰富音频挑战赛双任务获得国际比赛第一名;丰富人声研究上:在抑郁症检测上提出了基于自监督学习的抑郁症特征提取方法,至今为SOTA;同时扩展于人机对话的智能问诊方式,构建了首个抑郁症问诊数据集,开发了融合共情机制的智能抑郁症语音问诊对话系统,疫情期间广泛用于群众心理状态调查。
四、 讲者信息
燕楠,中国科学院深圳先进技术研究院
讲者简介:燕楠,博士,中国科学院深圳先进技术研究院研究员,中国科学院特聘研究员。深圳市海外高层次人才“孔雀计划”引进人才,中华医学会物理医学与康复分会言语语言学组委员、广东省康复医学会听力言语分会常务委员。在香港大学言语与听觉科学系从事博士后研究工作,主要研究领域为语音信号处理与人工智能、病理语音的人工智能系统、智能化言语康复技术。近五年来,主持科技部重点研发计划课题、国家自然基金面上项目等多个省部级项目,获批经费超过1000万元。
报告题目:基于动态眼动轨迹的孤独症障碍儿童的早期筛查研究
报告简介:孤独症谱系障碍(Autism Spectrum Disorder,ASD)是一类以不同程度的社会交流和互动缺陷,由于高发病率及高终身致残率,ASD作为儿童严重的发育行为障碍已成为社会公共卫生问题。而且由于其症状存在多样性,最新诊断标准仍存在争议,亟需一种特异性高的客观诊断指标,辅助该病的临床诊断。难以理解别人的情绪被认为是ASD的核心特征,也被认为是社会交流互动障碍的最重要原因,且具有跨文化普遍性,而眼动追踪可以揭示ASD情绪识别缺陷模式。本研究将对ASD动态情绪识别的异常眼动轨迹进行深入研究,提出基于专家知识和深度学习的眼动轨迹辅助诊断ASD的筛查模型,令ASD情绪障碍康复向着高效化、精准化、智能化迈进。
报告摘要:孤独症谱系障碍(Autism Spectrum Disorder,ASD)是一类以不同程度的社会交流和互动缺陷,由于高发病率及高终身致残率,ASD作为儿童严重的发育行为障碍已成为社会公共卫生问题。而且由于其症状存在多样性,最新诊断标准仍存在争议,亟需一种特异性高的客观诊断指标,辅助该病的临床诊断。难以理解别人的情绪被认为是ASD的核心特征,也被认为是社会交流互动障碍的最重要原因,且具有跨文化普遍性,而眼动追踪可以揭示ASD情绪识别缺陷模式。本研究将对ASD动态情绪识别的异常眼动轨迹进行深入研究,提出基于专家知识和深度学习的眼动轨迹辅助诊断ASD的筛查模型,令ASD情绪障碍康复向着高效化、精准化、智能化迈进。
张卫强,清华大学
讲者简介:张卫强,副研究员,清华大学语音与音频技术实验室负责人。2009年在清华大学电子工程系获博士学位,2016-2017年斯坦福大学访问学者。主要研究方向为语音与音频信号处理、低资源语音识别等。以负责人身份承担自然科学基金联合重点项目、国家重点研发专项课题等多个项目。发表学术论文200余篇;申请国家发明专利40余项。获教育部科技进步一等奖、科技奥运先进集体奖,获得NIST等多项国际语音比赛冠军。
报告摘要:在大规模数据和算力的支撑下,语音领域自监督预训练大模型取得了突破性进展,预训练大模型则凭借其优异的性能而备受关注。在本报告中,我们首先对一系列典型的预训练大模型进行对比,然后针对低资源小语种自动语音识别这一具体应用展开探索,从模型、方法、语种等多个角度分析其性能差异和内部机理,最后对预训练大模型的发展进行展望。
报告题目:当小语种遇上大模型
报告简介:在大规模数据和算力的支撑下,语音领域自监督预训练大模型取得了突破性进展,预训练大模型则凭借其优异的性能而备受关注。在本报告中,我们首先对一系列典型的预训练大模型进行对比,然后针对低资源小语种自动语音识别这一具体应用展开探索,从模型、方法、语种等多个角度分析其性能差异和内部机理,最后对预训练大模型的发展进行展望。
易江燕,中国科学院自动化研究所
讲者简介:易江燕,中科院自动化所副研究员、硕士生导师,曾在阿里巴巴iDST任资深算法工程师。主要研究方向为语音信号处理、语音生成与鉴别,主持国家自然科学基金、科技部重大项目课题和国际合作项目等8项。多次担任领域顶级国际会议Interspeech和ICASSP的Area Chair和Session Chair,在国际重要会议ICASSP和IJCAI上发起了“深度生成音频检测”国际挑战赛。在IEEE TASLP、ICML等重要期刊和会议上发表论文70余篇,已授权发明专利50项(含美国发明专利9项),获2022年度吴文俊人工智能科学技术奖特等奖、7次获国内外重要学术会议论文奖和竞赛冠军。
报告题目:深度语音生成与鉴别
报告简介:近年来,随着算力、数据和算法的飞速发展,GPT-3、GPT-4和ChatGPT等生成式大模型已成为打造人工智能基础设施的利器之一,但是人工智能技术具有“双重性”,在造福人类的同时,也不可避免地带来了安全风险。不良用途的深度合成技术给国家安全、社会稳定、财产安全乃至个人名誉均带来巨大危害,各国政府、科研机构和企业高度重视伪造语音带来的风险,积极部署虚假语音生成和鉴别的研究项目。本报告拟对深度语音生成与鉴别技术的发展历史与研究现状进行梳理与阐释,着重介绍现有关键技术的优势与不足,探讨大模型背景下深度音生成与鉴别技术发展的启示与挑战。
报告摘要:近年来,随着算力、数据和算法的飞速发展,GPT-3、GPT-4和ChatGPT等生成式大模型已成为打造人工智能基础设施的利器之一,但是人工智能技术具有“双重性”,在造福人类的同时,也不可避免地带来了安全风险。不良用途的深度合成技术给国家安全、社会稳定、财产安全乃至个人名誉均带来巨大危害,各国政府、科研机构和企业高度重视伪造语音带来的风险,积极部署虚假语音生成和鉴别的研究项目。本报告拟对深度语音生成与鉴别技术的发展历史与研究现状进行梳理与阐释,着重介绍现有关键技术的优势与不足,探讨大模型背景下深度音生成与鉴别技术发展的启示与挑战。
沈莹,同济大学
讲者简介:同济大学软件学院副教授,博士生导师,CCF高级会员,CCF语音对话与听觉专委会委员,获吴文俊人工智能技术发明二等奖。主持国家自然科学基金青年基金、国家自然科学基金面上项目和上海市自然科学基金面上项目。在本领域的一流国际期刊和会议上发表多篇学术论文,Google Scholar引用总数1900余次。目前的研究领域包括:语音信号处理,自然语言理解,情感计算等。
报告题目:Towards Automatic Depression Detection: A Novel Emotion Anchor-Guided Framework
报告简介:Depression is a global mental health problem which has brought heavy social and financial burdens to the society. Recently, many depression detection methods have been proposed to automatically predict one’s depression state based on different modalities, such as audio signals. However, these methods did not fully utilize the emotional information embedded in the audio signals. Psychology studies have revealed that depression can influence one’s emotional expression pattern and perception. Emotional features related with the emotional expression have been proved to be helpful for the depression detection. In order to extract effective emotional features from audio signals, we propose a novel emotion representation embedding, namely the emotion anchor. Based on the emotion anchor embedding, we propose a novel Emotion Anchor-Guided (EAG) depression detection framework which effectively integrates the emotional information embedded in the audio signals into the depression detection method. In addition, a new loss function is proposed to guarantee the discrepancies among three components consisting the emotion anchor. Furthermore, two different data augmentation methods, the emotion label-guided data augmentation and the sliding window-based data augmentation, are proposed to address the class imbalance problem. The results of extensive experiments on two public datasets demonstrate the effectiveness and the generalization capability of the proposed EAG framework.
报告摘要:Depression is a global mental health problem which has brought heavy social and financial burdens to the society. Recently, many depression detection methods have been proposed to automatically predict one’s depression state based on different modalities, such as audio signals. However, these methods did not fully utilize the emotional information embedded in the audio signals. Psychology studies have revealed that depression can influence one’s emotional expression pattern and perception. Emotional features related with the emotional expression have been proved to be helpful for the depression detection. In order to extract effective emotional features from audio signals, we propose a novel emotion representation embedding, namely the emotion anchor. Based on the emotion anchor embedding, we propose a novel Emotion Anchor-Guided (EAG) depression detection framework which effectively integrates the emotional information embedded in the audio signals into the depression detection method. In addition, a new loss function is proposed to guarantee the discrepancies among three components consisting the emotion anchor. Furthermore, two different data augmentation methods, the emotion label-guided data augmentation and the sliding window-based data augmentation, are proposed to address the class imbalance problem. The results of extensive experiments on two public datasets demonstrate the effectiveness and the generalization capability of the proposed EAG framework.
张世磊,中国移动通信有限公司研究院
讲者简介:张世磊,中国移动研究院人工智能中心语音技术负责人,中科院自动化所博士,CCF语音对话与听觉专委会执行委员。2007年博士毕业于中国科学院自动化研究所,主要研究方向为语音识别及音频信息处理。2009 年获得国家自然科学研究系列电子信息专业副研究员高级职称。曾任IBM中国研究院9级首席科学家、IBM美国沃森研究中心访问研究员。其研究领域主要包括语音识别、语音合成、声纹识别、音频分析、多模态识别等。 在重要学术会议和期刊如ICASSP、INTERSPEECH、IJCAI、 Neural Networks等上发表超过50篇论文。
报告题目:鲁棒语音表征及大规模声纹识别通用模型构建
报告简介:语音大模型为语音领域不同任务提供了通用表征能力,但在复杂场景特别是带噪环境下的鲁棒性还有待提升,为此,我们提出基于谐波注意力的渐进式语音增强方法提升语音表征的鲁棒性。进一步我们将各种下游任务的目标融合到增强模块,使语音增强作为面向不同语音任务的可插拔通用模块。此外,目前语音大模型通常是利用上下文预测被掩蔽的部分,在语义相关的任务比如语音识别上提升比较明显,而在声纹这种去语义相关性的任务上提升比较有限,因此我们希望能从声纹的角度重新审视语音通用大模型的构建。我们基于百万说话人训练得到声纹基础模型,实现跨业务、跨信道系统性能鲁棒提升。
报告摘要:语音大模型为语音领域不同任务提供了通用表征能力,但在复杂场景特别是带噪环境下的鲁棒性还有待提升,为此,我们提出基于谐波注意力的渐进式语音增强方法提升语音表征的鲁棒性。进一步我们将各种下游任务的目标融合到增强模块,使语音增强作为面向不同语音任务的可插拔通用模块。此外,目前语音大模型通常是利用上下文预测被掩蔽的部分,在语义相关的任务比如语音识别上提升比较明显,而在声纹这种去语义相关性的任务上提升比较有限,因此我们希望能从声纹的角度重新审视语音通用大模型的构建。我们基于百万说话人训练得到声纹基础模型,实现跨业务、跨信道系统性能鲁棒提升。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn