随着AI逐步落地,产业需求不断深入。在单模态领域,如翻译等相关应用,AI的能力已经可以达到媲美人类的水平。但随着技术和产业的进一步发展,多模态就成为AI技术和产业突围的新方向,更多场景应用需要多模态大模型来支撑,例如,跨模态检索、智能问答、文学艺术创作、视频配音、视频摘要等等。
如今跨模态AI技术有哪些前沿的研究成果及优秀的产业应用?未来的发展之路又将走向何方?本期CCF-TF70邀请到Jina AI、超对称技术公司、网易有道等企业专家,深入分享跨模态AI技术的相关思考及产业实践。CCF-TF70旨在搭建高水平技术交流平台,为相关行业技术从业者提供有效的参考。
门票类型 | 参会者身份 | 8.8~8.16 |
---|---|---|
会议注册费(线上参会) | CCF会员 | ¥0 |
非会员 | ¥99 |
段亦涛,加州大学伯克利分校(UC Berkeley)计算机科学博士,CCF TF算法与AI SIG主席、网易有道首席科学家,全面负责网易有道技术创新与相关实践工作。
主要研究方向为大规模分布式计算、数据挖掘、机器学习、密码学及安全隐私。于美国攻读博士期间加入有道,参与完成有道AI底层架构。主要关注以深度学习为代表的最新AI技术在互联网各个领域的应用,主导了有道神经网络机器翻译YNMT(Youdao-NMT)、光学字符识别(OCR)和机器自动批改等核心技术的研究和开发。
段亦涛先生在国际顶级学术会议和期刊发表十余篇学术论文,并担任TKDD(ACM Transactions on Knowledge Discovery from Data), TPDS (IEEE Transactions on Parallel and Distributed Systems), JSS(Journal of Systems and Software), COMNET (Elsevier Computer Networks), IEEE Transactions on Wireless Communications等国际顶级学术期刊审稿人。
何中军
百度人工智能技术委员会主席
长期从事机器翻译研究与开发,研发了全球首个互联网神经网络机器翻译系统及语义单元驱动的机器同传系统。曾获国家科技进步二等奖、中国电子学会科技进步一等奖、北京市科技进步一等奖、中国专利银奖等多项奖励。
TF70:跨模态前沿AI技术及产业应用 主持人:段亦涛 CCF TF算法与AI SIG主席,网易有道首席科学家 | ||
时间 | 主题 | 讲者 |
19:00-19:10 | 活动介绍 | 段亦涛 CCF TF算法与AI SIG主席,网易有道首席科学家 |
19:10-19:40 | 《神经搜索在 3D 场景中的研究与应用》 | 王峰 Jina AI 高级 AI 工程师 |
19:40-20:10 | 《让预训练语言模型读懂数字:10亿参数时序-文本跨模态模型Big Bang Transformer》 | 陈肯 超对称技术公司NLP算法研究员 |
20:10-20:40 | 《Cross-modal Multi-task Learning for Speech Translation》 | 程桥 网易有道NLP算法专家 |
20:40-20:55 | 参会者提问互动 | 段亦涛、王峰、陈肯、程桥 |
20:55-21:00 | 活动总结 | 段亦涛 |
姓名: 王峰
工作单位与职务:Jina AI 高级 AI 工程师
主题:《神经搜索在 3D 场景中的研究与应用》
主题简介:
个人简介: 开源神经搜索框架 Jina 的核心贡献者,热衷于开源软件和云原生技术。毕业于山东大学,在香港浸会大学获得计算机博士学位。曾就职于腾讯科技和虎牙科技,专注机器学习与深度学习算法在自然语言理解、多模态表征学习和信息检索领域的实际应用。
姓名: 陈肯
工作单位与职务:超对称技术公司NLP算法研究员
主题:《让预训练语言模型读懂数字:10亿参数时序-文本跨模态模型Big Bang Transformer》
主题简介: 超对称技术公司发布10亿参数金融预训练语言模型BigBang Transformer[乾元]。BBT大模型基于时序-文本跨模态架构,融合训练文本和时序两种模态数据,下游任务准确率较T5同级别模型提升近10%,并大幅提高时序预测的R2 score,跨模态架构能让语言模型识别时序数据的变化并通过人类语言来分析和阐述其发现。BBT模型可用于金融量化投资的因子挖掘,支撑多因子策略,以及广泛的数据可视化和物联网的时序数据分析等。BBT模型的目标是实现具备人类级别分析能力的预训练大模型,构建可在行业落地的通用人工智能架构。
个人简介:资深算法工程师,主要研究知识增强的预训练语言模型,知识图谱,多模态模型。
姓名: 程桥
工作单位与职务:网易有道NLP算法专家
主题:《Cross-modal Multi-task Learning for Speech Translation》
主题简介:网易有道在语音翻译,图片释义,文档理解等很多实际业务中都面临着跨语言跨模态的场景。跨语言跨模态应用通常面临着训练数据不足,不同模态之间语义存在差异,系统多个模块之间错误传播等问题。本次分享将会介绍有道在跨语言跨模态场景中的相关应用,以及使用多任务学习框架解决跨语言跨模态场景下的语音翻译相关问题。
个人简介:网易有道NLP算法专家。毕业于浙江大学,毕业后一直从事机器翻译的研发工作,经历了机器翻译从SMT时代发展到NMT时代的过程。在有道参与了NMT的工程优化,质量调优,离线翻译,语音翻译等的核心研发工作,在机器翻译方向有丰富的研发经验。
算法与AI-SIG活动安排 | ||
TF94 | 2023.2.23 | NLP技术(具体话题待定)产业化之路 |
TF97 | 2023.3.23 | 语音处理前沿及产业化 |
1、如报名后无法参加,请及时于活动开始前发送邮件申请取消(联系邮箱:tf@ccf.org.cn),无故缺席将影响下一期活动的参与。
2、活动采用线上模式:腾讯会议。
移动端可在微信小程序中搜索“腾讯会议”登录会议,或下载“腾讯会议”APP登录。
客户端请搜索“腾讯会议”下载并登录。
CCFTF官网及公众号“活动直播”栏目可扫码关注“中国计算机学会”视频号观看直播;另在爱奇艺及B站可观看直播,详见在线观看。
3、会议链接和密码将在活动当天通过邮件、短信通知(活动当天15:00后报名请及时查收邮件)。工作人员将报名填写的手机号导入腾讯会议,使用该手机号直接登录参会。
4、CCF会员免费参加,非会员99元/次,加入会员可免费参与全年47场活动。
5、请于活动当天16:00前完成报名,及时获取会议链接。