微信里点“发现”,扫一下
二维码便可将本文分享至朋友圈
演讲摘要:三代测序技术具有读长长(约20kbp)、无PCR扩增偏好性和碱基修饰敏感性等特点,在动植物的基因组de novo组装和表观遗传检测研究中具有明显的优势。作为二代测序技术的有力补充或替代,已成为近年来研究的热点,研究成果常发表于CNS等国际顶级期刊。目前三代测序数据高测序错误率(12-15%)是三代数据分析面临的巨大挑战,高错误率引起的巨大计算资源消耗是阻碍三代测序广泛应用的重大瓶颈。首先,在三代测序基因组组装方面,我们提出了全局种子投票打分模型替代传统序列比对模型,开发了快速组装系统MECAT。MECAT在人数据集的组装速度是同类软件(Canu和FALCON)17-56倍,该研究成果于2017年发表在Nature Methods期刊,目前MECAT已组装了20余个中国特色植物基因组。其次,在Nanopore序列校正方面,针对Nanopore错误分布局部不均问题,我们提出了精度优先序列校正模型,大幅提高序列校正速度和精度,开发了Nanopore快速组装系统NECAT,该软件是同类软件(Canu)的20倍(Nature Communications,2021)。另外,在表观遗传学修饰检测方面,针对PacBio大型基因组DNA-6mA资源消耗问题,我们提出了基因组区域划分的并行检测方法。首次系统地揭示了人类DNA-6mA图谱的分布规律、基因表达调控模式、甲基化酶(N6AMT和ALKBH1)及其与癌症关系,该研究成果于2018年发表在Molecular Cell杂志上。此外,针对Nanopore表观修饰检测精度低及背景信号复杂的问题,我们建立了识别Nanopore表观修饰(5mC和6mA)的深度循环神经网络(RNN)模型,开发了相应的软件DeepMod,实现了全基因组单碱基水平高精度检测5mC和6mA,5mC和6mA的检测平均精度可分别高达99%和90%,该成果于2019年发表在Nature Communications杂志上。
讲者简介:生物信息学博士,广东省杰出青年基金获得者,中山大学中山眼科中心副研究员。长期致力于三代测序数据分析方法开发及应用研究,近年来针对三代测序基因组学和表观遗传学的基础研究及应用中出现的计算瓶颈问题建立了系列关键算法和支撑软件。近五年以第一或通讯作者在Nature Methods(2017)、Molecular Cell(2018)、Nature Communications(2019,2021)、NAR(2017)和Cell Discovery(2020)等期刊发表高水平SCI论文十余篇,其中Q1区文章7篇。曾主持省部级以上的项目7项,其中国家基金3项。目前担任Current Gene Therapy和Interdisciplinary Sciences: Computational Life Sciences编委,曾担任过Genome Biology和Nature Communications,Briefing in Bioinformatics和Bioinformatics等多种杂志审稿人。