企业论坛

企业论坛

时间：2021年9月26日下午13:30-15:30

地点：3楼尊汇厅

联合承办：传播内容认知国家重点实验室

报告嘉宾1：余涛（腾讯天籁）

报告题目：腾讯天籁-面向云会议的新一代实时音频技术

报告摘要：随着实时音视频应用在垂直场景和新兴场景的不断蓬勃发展，实时音频处理技术面临前所未有的挑战和机遇；腾讯天籁实验室一直以来为腾讯各大业务提供音频底层核心技术，通过对技术的持续深耕和开拓创新，不断引领新业务场景下的用户体验。

余涛

人个简介：余涛博士，腾讯会议天籁实验室总监、技术研发专家，毕业于美国德州大学前沿语音实验室，深耕实时语音通信和智能语音交互行业10多年，有着丰富的超大规模应用产品研发，以及引领性技术探索并落地经验，取得近百项国际专利和行业顶会专著。加入腾讯前，就职于高通和阿里达摩院。

报告嘉宾2：张冉（快手）

报告题目：短视频下的AI音乐创作

报告摘要：音乐行业的发展进入了一个新的阶段--即AI与音乐的深度融合。面对广泛的市场需求，学术界和工业界争相在AI音乐，特别是AI音乐创作上布局。在短视频行业，音乐更是一个离不开的重要元素，不论是在生产端还是消费端都发挥了重要的作用。

AI音乐创作+短视频的融合应用主要包含以下几个方面：

短视频自动配乐：根据短视频分类标签、以及视频作品表达的情绪和风格特征，为短视频自动生成背景音乐。l AI数字音乐工作站：随身的智能音乐工作站，将迸发的灵感即时记录、即刻创作。

AI音乐互动社区：开启音乐平台新赛道。音乐人在社区上分享和交流音乐创作心路历程，获得音乐关注度和知名度，吸引用户流量和广告推广。

AI音乐创作是跨领域、跨学科的交叉融合，“音乐艺术+AI”展开了全新的市场赛道，拥有广泛的市场需求。本报告分享了快手在这个音乐与技术交融的时代，在AI音乐创作方面的动态与进展。

张冉

个人简介：张冉，博士，快手MMU AI音乐组负责人。研究方向为语音与语言处理技术、多媒体智能信息处理、音乐信息处理技术。2009年至2014年，在中国科学院模式识别重点实验室获得博士学位，方向为模式识别与智能系统。2014年至2016年，在三星通讯技术研究院任语音开发工程师，主要负责三星手机中，SVoice人机交互助手的开发与迭代。2016年至2019年，加入谷歌投资的可穿戴设备公司任Tech Lead，主要负责智能手表与智能车机上的语音交互系统开发。2019年加入微软小冰，任Senior Data&Applied Scientist。次年加入快手，任AI音乐组负责人至今。从业至今，在ICASSP, Interspeech等语音顶级会议上发表多篇文章，并发表了几十篇模式识别相关的专利，包括5篇国际专利。目前主要兴趣方向为音乐生成，音乐信息检索等。

报告嘉宾3：刘玉宇（平安科技）

报告题目：视觉技术支撑的远程金融核验

报告摘要：由于疫情的催化，加速了金融行业数字化转型的进程，越来越多的金融业务都转向远程办理，而远端的身份验证也成为了无接触式金融业务的核心需求。随着业务的发展，单一的生物特征识别技术，其可靠性和精度在不同的环境下（如光线较差、声音嘈杂等）存在自有的局限性，另外，如果对接多套业务系统，就容易形成信息孤岛，难以满足业务应用。平安充分利用多模态识别，包含车辆特征、光学字符识别（OCR）、人脸及唇语识别，对接各种渠道进行认证核验。通过摄像机或摄像头采集含有车辆、文本、人脸、唇动的图像或视频流，并实现车辆检测、证件照识别、票据识别、无固定格式文本识别、人脸检测、特征点定位、人脸识别及活体识别等关键技术。综合平台通过既有的权重设置，完成加权融合判断，实现最终的判定结果。本议题将为你分享平安在金融领域远程核验中AI视觉技术的实践应用，希望对你有所启发。

刘玉宇

人个简介：刘玉宇博士，平安科技视觉技术团队部门长，资深人工智能专家。超过20年语音图像模式识别算法研发经验，拥有东京大学电子信息技术博士学位、清华大学电子工程硕士学位、北京邮电大学通信工程本科学位。曾在ACM Multimedia、Pattern Recognition Letters等国际期刊和会议上发表多篇论文，获得过ICPR和MIRU会议优秀论文奖。申请中美日发明专利200余项。负责平安集团金融科技领域的视觉算法研发及中台服务，在人、证、车等方面实现综合金融AI赋能，产品远销欧洲、北美、亚洲等多个海外地区。获IDC Real Results Rewards全球大奖、上海市科技进步一等奖等多个奖项。

报告嘉宾4：李海（爱奇艺）

报告题目：多模态语义理解在体育领域的落地和应用

报告摘要：视频理解逐步从单一模态理解转向多模态理解，为AI理解视频提供了更加高效的手段。爱奇艺SportsWorks采用多模态技术从视觉、听觉、文字三个方面对体育视频进行深度理解，在直播过程中识别各类足球和网球事件，如足球定位球、射门、犯规、庆祝、网球多拍、S球、盘点等，同时对识别后的结构化信息进行分析，实时生成各类精彩片段、集锦以及战术分析等，解决了多场并发直播比赛编辑人力不足的问题，极大地丰富了赛事衍生的短视频内容，提高了体育短视频产出速度，解放了人工编辑。爱奇艺SportsWorks已经落地到多个自有版权赛事直播中，包括英超、西甲、欧洲杯、欧冠、温网、澳网等多个顶尖足球赛事和网球大满贯赛事。

李海

人个简介：李海，现任爱奇艺高级经理，中国计算机学会（CCF）语音对话与听觉专委会执行委员，CCF YOCSEF（成都）学术委员，CCF成都分部委员。主要从事计算机视觉、语音合成与识别、语音转换、音乐信息检索等相关技术的研究与技术管理工作，带领团队参与了智能体育、智能拆条、智能语音等多个项目。在ICME、ICASSP、Interspeech等国际会议发表论文5篇，申请专利4项，参与多个重点项目并获得国家级奖项。

报告嘉宾5：郭俊波（人民网）

报告题目：内容携手科技，助力媒体融合发展

报告摘要：传播内容认知国家重点实验室由人民日报社主管、依托人民网建设，主要围绕主流价值观精准传播理论科学与计算、内容智能审核和风控评级、基于内容传播领域的国家网络空间治理三个方向开展应用基础研究。本次报告将介绍实验室在内容科技领域助力媒体融合发展的最新研究进展和成果。

郭俊波

个人简介：郭俊波，博士，传播内容认知国家重点实验室（人民网）研究员。长期从事传播内容认知与互联网内容安全相关技术研发工作，承担多项国家重点研发计划课题，带领团队研制的音视频内容监管系统在多个国家部委得到应用，先后获北京市科学技术奖一等奖三次。

微信扫一扫：分享