当前位置:首页 >> 学术资讯 >> 科研信息
小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。
综合推荐区

【JPCS出版,EI和Scopus双检索】第八届能源技术与材料科学国际学术会议(ICETMS 2024)

【IEEE独立出版,院士报告,高校背书,快至3天录用】第五届信息科学与并行、分布式处理国际学术会议(ISPDS 2024)

【 高录用,快速见刊 | 往届均已见刊检索】第八届可再生能源与发展国际研讨会(IWRED 2024)

2024年第三届网络、通信与信息技术国际会议(CNCIT 2024)

【河南大学主办 | 已有ISSN号丨SPIE独立出版丨录用率高丨检索快】第四届生物医学与生物信息工程国际学术会议(ICBBE 2024)

【提交ACM-ICPS出版, EI&Scopus检索稳定 | 同步提交知网,最快见刊后一个月内知网检索】第三届信息经济、数据建模与云计算国际学术会议 (ICIDC 2024)

【2024算力大会分会 | 前两届已完成EI检索!】2024云计算、性能计算与深度学习国际学术会议(CCPCDL 2024)

【JPCS出版,往届均已见刊检索,最快会后4个月EI检索】第三届智慧能源与能源物联网国际学术会议(SEEIoT 2024)

【四川省人工智能学会、中国民用航空飞行学院联合主办 | ACM出版 | EI(核心),Scopus检索】第四届大数据、人工智能与风险管理国际学术会议  (ICBAR 2024)

【ACM稳定EI检索 | 会议收录率高 | 有ISSN号】2024年智慧教育与计算机技术国际学术会议(IECT 2024)

【JPCS独立出版 (ISSN:1742-6596),往届已见刊并完成EI以及Scopus检索】第八届水动力学与能源电力系统国际学术会议(HEEPS 2024)

【CPCI,CNKI,Google scholar】第三届经济、智慧金融与当代贸易国际学术会议(ESFCT 2024)

【EI Compendex, Scopus检索】2024年图像处理、智能控制与计算机工程国际学术会议(IPICE 2024)

【JPCS出版,华中科技大学协办 | EI (核心),Scopus检索】2024年机器人前沿技术与创新国际会议(FTIR 2024)

2024年亚太计算技术、通信与网络国际会议(CTCNet 2024)

【IEEE精品会议,已确定ISBN号,见刊检索有保障!】第七届机电一体化与计算机技术工程国际学术会议(MCTE 2024)

2024年IEEE第五届控制,机器人与智能系统国际会议(CCRIS 2024)

【中南大学主办 | EI (核心) , Scopus检索】2024年智能驾驶与智慧交通国际学术会议(IDST 2024)

2024年第三届算法、数据挖掘和信息技术国际会议(ADMIT 2024)

2024年IEEE亚洲先进电气与电力工程会议(ACEPE 2024)

2024年第七届机器学习和自然语言处理国际会议(MLNLP 2024)

2024年第七届数据科学与信息技术国际会议(DSIT 2024)

会议展示区

【IEEE独立出版,院士报告,高校背书,快至3天录用!】第五届信息科学与并行、分布式处理国际学术会议(ISPDS 2024)

【高录用、快检索】【SPIE 独立出版 | ISSN: 0277-786X】第三届信号处理与通信安全国际学术会议(ICSPCS 2024)

2024年教育创新国际论坛(IEFI 2024)

【医工结合,高科技行业盛会,行业大咖,院士汇聚,ACM出版】2024年智能医疗与可穿戴智能设备国际学术会议(SHWID 2024)

【浙江工业大学主办,往届均已成功被EI、Scopus检索! EI检索稳定、快速】第五届物联网、人工智能与机械自动化国际学术会议 (IoTAIMA 2024)

【河南省科学院和河南大学联合主办 | SPIE出版 (ISSN: 0277-786X),往届已被EI收录检索】第二届遥感、测绘与地理信息系统国际学术会议(RSMG 2024)

第七届模式识别与人工智能国际会议 (PRAI 2024)

汤富酬课题组实现基于单细胞测序数据的人类基因组从头组装

2024/04/22

随着三代测序技术(TGS,也即单分子测序技术)的发展,基于大量细胞的三代基因组测序数据被广泛应用于各种复杂大型基因组的组装,由于其读长相比于二代测序(NGS)技术有数百倍的增加,因此基因组中重复序列区域以及染色体重排等复杂结构变异区域都能被更好地组装出来。

对于人类基因组的组装研究,端粒到端粒(T2T)联盟在2022年3月,使用纯合二倍体细胞系CHM13率先发布了首个完整的端粒到端粒的人类基因组参考序列CHM13v1.1。2022年3月,人类泛基因组联盟(HPRC)在预印本平台bioRxiv上发布了首个高质量人类杂合二倍体细胞系HG002的单倍型组装结果。目前,高质量的基因组组装通常依赖于大量细胞混合样本的三代测序数据,需要大量的基因组DNA(通常需要从数百万个细胞中提取几十微克基因组DNA),然而在基因组组装的实际应用中我们常常要面对两个困难:

  1. 细胞群体中存在遗传异质性。基于大量细胞三代测序数据的基因组组装需要确保测序的样本中每个细胞的遗传背景高度一致,否则组装结果将很难区分同一个细胞内的不同单倍型基因组之间的差异和不同细胞亚群之间的基因组差异。只有降低或者消除细胞间的遗传异质性才能确保单倍型组装的准确性。但是,在人体正常组织样本中也常常广泛存在体细胞拷贝数变异(CNA)。与此同时,正常的人类细胞也会不断积累突变,同一块人体组织常常是由很多包含不同突变的细胞克隆组成。在癌症研究中,同一个肿瘤样本中不同癌细胞亚克隆之间的基因组异质性就更为明显。

  2. 细胞数量稀少。在很多情况下,很难获取上百万个细胞以提取大量(几微克)基因组DNA。例如,在早期胚胎发育研究、司法检验、特别是在癌症基因组研究中(如循环肿瘤细胞、肿瘤活检样本、脑脊液中的肿瘤细胞以及腹水中的肿瘤细胞等),能够获取的细胞数量常常很稀少,而且这些细胞很难在体外培养和扩增;即使偶尔可以培养扩增,也不能保证在体外培养扩增过程中其基因组不会进一步产生新的遗传变异。

基于二代测序(NGS)平台的单细胞基因测序技术被广泛应用于微生物等简单小型基因组的组装。许多种类的细菌无法在实验室中培养,单细胞基因组测序可以与宏基因组学方法结合起来完成微生物的基因组组装。由于人类基因组结构、大小以及复杂程度远超细菌等微生物,单纯使用基于二代测序平台的大量细胞基因组测序数据也无法组装出高质量的人类基因组参考序列【NG50很难达到Mb(百万碱基对)级别】,那么使用少量DNA甚至单细胞基因组测序数据组装人类基因组则更具挑战性,它不仅需要基于三代测序平台的单细胞基因组长读长测序技术的支持,还需要合适的组装软件以及良好的生物信息学分析策略。

2022年7月12日,北京大学生物医学前沿创新中心汤富酬教授课题组在Nucleic Acids Research发表了题为“De novo assembly of human genome at single-cell levels”的研究论文,使用优化的SMOOTH-seq单细胞基因组三代测序技术,基于Pacific Biosciences (PacBio) HiFi和Oxford Nanopore Technologies (ONT)两种三代测序平台首次在单细胞水平上完成了Mb级连续性的人类基因组组装,并使用多种评价指标,充分探索了不同测序策略和组装工具对基因组组装结果的影响。

1. 全面优化了SMOOTH-seq单细胞基因组三代测序技术,使其同时适用于PacBio和ONT两种主流单分子测序平台。此前的SMOOTH-seq技术只适用于PacBio单分子测序平台,使用场景有较大的局限性。优化后的SMOOTH-seq技术既可以用于PacBio单分子测序平台,也可以用于ONT单分子测序平台,使用场景更加灵活,可以兼顾测序数据准确性和测序成本。

2. 使用hifiasm,Hicanu,wtdbg2等主流组装工具和95个单细胞的三代基因组测序数据(Pacbio HiFi平台),对人类慢性粒细胞性白血病(CML)细胞系K562进行了高质量基因组组装。组装出的主要叠连群(primary contig)的NG50(可覆盖50%的已知基因组区域的最短叠连群的长度)可达2.11Mb,也就是说在这个组装出的参考序列中,人类基因组中一半(15亿碱基对)以上的区域都被至少2.11Mb以上的叠连群覆盖了。最长叠连群可达14.12Mb,完整的通用单拷贝同源基因基准(Complete BUSCOs)比例接近95%,且大部分组织相容性复合体(MHC)位点(基因组上的一个有代表性的复杂区域,全长约6Mb)被成功组装出来(如图1所示)。


图1. 95个K562细胞的基因组组装结果(Pacbio HiFi)

3. 使用hifiasm,Hicanu,wtdbg2等主流组装工具和人类正常二倍体细胞系HG002的157个单细胞的基因组三代测序数据(Pacbio HiFi平台)对人类基因组进行了高质量组装。组装出的主要叠连群(primary contig)的NG50可达0.65Mb,最长的叠连群可达6.82Mb,完整的通用单拷贝同源基因基准(Complete BUSCOs)比例接近91%。在使用此数据进行HG002的单倍型组装的过程中该研究发现经过指数扩增的基因组数据的k-mer分布会发生偏移,因此使用有双亲二代测序数据作为辅助的Trio-binning模式进行基因组单倍型组装结果更为准确。因此该研究分别使用Trio hifiasm和Trio Hicanu两种组织工具进行单倍型组装,得到的亲本叠连群的NG50可达0.3Mb左右,完整的通用单拷贝同源基因基准(Complete BUSCOs)比例均超过84%。通过比较HG002亲本6种经典人类白细胞抗原(HLA)位点的组装分型结果,Trio Hicanu能够正确组装出HLA区域的两个亲本的大部分基因位点(如图2所示)。

图2. 157个HG002细胞的基因组组装结果(Pacbio HiFi)

4. 使用Flye,Necat,wtdbg2等主流组装工具和人类正常二倍体细胞系HG002的192个单细胞的三代基因组测序数据(ONT平台,低测序深度)对人类基因组进行高质量组装。研究发现,不同的组装工具对最终组装结果有很大影响,Flye展现出更为适合单细胞ONT三代测序数据的特性,组装出的叠连群的NG50可达1.38Mb,最长叠连群可达11.42Mb,完整的通用单拷贝同源基因基准(Complete BUSCOs)比例超过93%,多项指标都远超另外两个组装工具。同时组装结果能够补齐39个hg38版本的人类参考基因组中未组装出的缺口(gap)区域,其中14个区域在hg38中注释的长度超过50Kb(如图3所示)。

图3. 192个HG002细胞以及30个HG002细胞的基因组组装结果(ONT)

5. 使用Flye,wtdbg2等组装工具和人类正常二倍体细胞系HG002的30个单细胞的三代基因组测序数据(ONT平台,高测序深度)对人类基因组进行高质量组装。为了探究仅使用极少量单细胞的基因组测序数据进行人类基因组组装的极限情况,该研究分别使用1个、10个、20个和30个单细胞尝试进行人类基因组组装,发现仅需要高测序深度的30个单细胞的基因组测序数据(平均基因组覆盖度~41.7%)就能完成叠连群 NG50高达1.34Mb连续性的组装。同时组装结果能够补齐38个hg38版本的人类参考基因组未组装出的gap区域,其中15个区域在hg38注释的长度超过50Kb(如图4所示)。

图4. 30个基因组高覆盖度HG002细胞的基因组组装结果(ONT)

6. 通过对K562细胞系基因组的从头组装,该研究相比于使用原始单细胞基因组三代测序数据能更精准地鉴定出更多的基因组插入事件和复杂结构变异事件。对于K562这样的白血病细胞系,基因组从头组装之后是否能更好地鉴定出基因组结构变异(SV)事件是癌症研究中的重要问题。该研究分别使用hifiasm和Hicanu组装出的主要(primary)叠连群和替代(alternate)叠连群来进行结构变异鉴定,发现组装后的叠连群比起原始单细胞数据直接比对能更准确地鉴定出基因组插入事件,召回率达到70%以上,精确度达到90%以上。同时,K562中的3对经典融合基因:CDC25A-GRID1、BCR-ABL1和NUP214-XKR3都能被精准地鉴定出来,而CDC25A-GRID1融合在原始单细胞基因组数据直接比对到参考基因组时是无法被发现的(如图5所示) 。为了进一步验证基因组从头组装后找到的结构变异事件的准确性,该研究挑选了20个(14个插入事件、6个缺失事件)在组装后的叠连群中被鉴定到、但是在单细胞基因组原始测序数据直接比对到参考基因组时没有被鉴定出来的结构变异事件进行了PCR验证,准确率高达80%。这证明了组装后的叠连群对结构变异事件的鉴定是精准可靠的(如图6所示)。

图5. 组装后叠连群(contig)中结构变异事件检测的准确性

微信截图_20220717085207.png

图6. PCR验证基因组结构变异事件的结果

综上,为了解决基因组从头组装在实际应用中遇到的细胞遗传异质性和细胞稀缺性的问题,该研究使用优化的SMOOTH-seq技术在两种不同的主流三代测序平台上,采用不同的测序策略【高通量、低深度测序策略(multi-cells with low sequencing depth)和低通量、高深度测序策略(few-cells with high sequencing depth)】,使用多种不同组装软件(hifiasm,Hicanu,wtdbg2, Flye,Necat等)、多个评价指标以及不同组装策略,探讨了利用单细胞测序数据从头组装人类基因组的可行性,并确定了影响组装结果的主要因素,将基因组组装的分辨率提高到单细胞水平(少至30个单细胞)。未来随着单细胞测序技术和基因组组装策略的进一步发展,最终必将实现只用一个单细胞的测序数据就能组装出Mb级连续性的人类参考基因组的梦想。

北京大学生命科学学院博士生谢昊伶以及北京大学前沿交叉学科研究院博士生李文为该论文的并列第一作者。汤富酬为该论文的通讯作者。该研究项目得到了北大-清华生命科学联合中心、国家自然科学基金委、北京市科技委和北京未来基因诊断高精尖创新中心的支持。


版权声明:
文章来源北京大学新闻网,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议

第四届计算机图形学、图像与虚拟化研究国际会议(ICCGIV 2024)(2024-05-17)

第九届机电控制技术与交通运输国际学术会议(ICECTT 2024)(2024-05-24)

2024年教育政策与实践研讨会(ICEPP 2024)(2024-05-24)

第三届机电一体化与机械工程国际会议(ICMME2024)(2024-05-24)

2024年电子器件、传感控制技术与光学机械工程国际学术会议(EDSCTOE 2024)(2024-05-25)

第十四届地质和地球物理学国际会议(ICGG 2024)(2024-05-31)

2024年食品工程与农业科学国际会议(ICFEAS 2024)(2024-06-02)

2024年第三届网络、通信与信息技术国际会议(CNCIT 2024)(2024-06-07)

第十届机械工程、材料和自动化技术国际会议(MMEAT 2024)(2024-06-21)

2024年先进机器人,自动化工程与机器学习国际会议(ARAEML 2024)(2024-06-28)

2024年历史文化与艺术设计国际学术会议(ICHCAD 2024)(2024-6-20)

2024年科学教育, 社会科学与心理学国际会议(ICSESSP 2024)(2024-6-26)

2024年数字媒体、新闻与管理国际会议(DMJM 2024)(2024-6-26)

2024大数据、电子通信与自动化国际学术会议(ICBDAEC 2024)(2024-5-26)

2024年捕捞学与海洋工程国际会议(ICFSOE 2024)(2024-6-29)

第三届控制工程与机器人技术国际研讨会(ISCER 2024)(2024-5-24)

2024年地理、矿产资源勘探与遥感技术国际学术会议(GMRERST 2024)(2024-7-27)

2024年计算机视觉,图形与图像处理国际会议(CVGIP 2024)(2024-6-28)

2024管理学、视觉设计与影视传播国际学术会议(MVDFTC 2024)(2024-5-26)

2024先进材料、化学工程与应用催化国际学术会议(IACEA 2024)(2024-5-20)


2024年粤港澳大湾区教育数字化与计算机科学国际学术会议(EDCS 2024)
第五届机械工程与智能制造国际学术会议(MEIM 2024)
2024年计算机视觉、机器人与自动化工程国际学术会议(CRAE 2024)
第九届信息科学、计算机技术与交通运输国际学术会议(ISCTT 2024)
2024年土木工程结构与混凝土材料国际学术会议 (CESCM 2024)