- 如何看待北航404名学生被退学事 152
- 会议接待注意事项 68
- 经济法学论文有哪些研究方向? 70
- 大专论文查重率要求多少合格呢 51
- sci可以有两个通讯作者吗 44
- 地学sci期刊四区 54
- 北京大学生命科学学院蒋争凡课题组 56
- 组织在线学术会议的具体步骤 87
- 关于《北京口腔医学》期刊资讯 32
- 上海交通大学崔勇教授团队在手性分 34
- 《卫星应用》期刊投稿栏目有哪些? 48
- 中医养生论文的选题方向 58
- 奥尔夫教学法在高校流行演唱教学中 71
- 影响论文发表周期的因素有哪些? 55
- 清华大学深圳国际研究生院贺艳兵课 44
- 中国民航大学 20393
- 中国地质科学院地质研究所 22378
- 中国化 学会 20387
- 上海麦峰医学科技有限公司 1387
- 南京财经大学 22376
- 武汉金钥匙会务服务有限公司 20389
- GTRS 7392
- 四川普莱美生物科技集团有限公司 22388
- 航天长征火箭技术有限公司 7385
- 上海大陆期货有限公司 23417
- 中国科学院北京纳米能源与系统研究 1481
- 中国市场经济研究会 17407
- 桥梁工程与技术网 20422
- 杭州市商贸会有限公司 17399
- GERG3R 23391
- 张家界中国国际旅行社 17413
- 黑鹰cosmos 17375
- 南京邮电大学 1434
- 香港中文大学 20409
- 武汉青博盛学术服务有限公司 23379
清华大学生命学院张强锋课题组开发单细胞测序数据在线整合的人工智能算法
2024/04/23
随着单细胞测序技术的发展,单细胞科学研究不断深入,规模越来越大,所研究的对象也越来越复杂。整合来源不同的单细胞测序数据,消除批次效应,进行全面挖掘和解析,是现在单细胞测序数据分析的一个基础和核心环节。目前单细胞测序数据整合面临以下几方面难题:第一,不同实验样本、实验平台、建库方法乃至操作等因素带来的批次效应会在单细胞测序数据中引入非生物学噪音,干扰细胞间生物学差异的提取和解析;第二,单细胞研究的规模不断扩大,百万细胞数目级别的数据对整合算法的效率提出了更高的要求;第三,单细胞测序样本的类型也在不断增加,不同的单细胞测序数据集通常包括高度异质的细胞亚群;第四,最重要的一点,如何充分重复利用大量已有数据的旧知识,对新数据进行探索和解析。目前单细胞测序数据整合算法大多基于不同批次数据间的细胞相似性来矫正批次效应,存在过度整合(尤其是整合细胞异质性差异较大的数据集)、可扩展性差、无法直接将已有模型应用到新数据集上等弊端。
10月17日,清华大学生命科学学院/结构生物学高精尖创新中心/清华-北大生命科学联合中心张强锋副教授课题组在《自然·通讯》(Nature Communications)期刊在线发表题为“通过将异构数据集投影到统一的细胞嵌入空间中进行单细胞测序数据在线整合”(Online single-cell data integration through projecting heterogeneous datasets into a common cell-embedding space)的研究论文。在该研究中,他们开发了基于变分自编码器(variational autoencoder)深度学习框架的人工智能算法SCALEX,可以对单细胞测序数据进行在线整合。SCALEX采用一个批次无关的编码器和批次特异的解码器组成的非对称自编码器结构,进行大量学习得到一个高泛化性的编码器,该编码器通过将高维单细胞测序数据投射到低维细胞嵌入空间(cell embedding space),在保留生物学差异的同时消除批次效应。
SCALEX模型框架
SCALEX主要有以下四点主要特征:第一,相较于目前已有的单细胞测序数据整合方法,SCALEX在整合准确性上具有明显优势;第二,SACLEX在百万单细胞数据量下仍保持很高的计算效率,适用于超高通量单细胞测序数据整合分析工作;第三,SCALEX有效避免了单细胞测序数据整合中的过校正情形,适用于异质性高、复杂样本的整合;第四,支持单细胞RNA-seq,单细胞ATAC-seq等多组学整合数据整合。这些特征使得SCALEX适用于构建单细胞图谱。开发人员整合多项研究、多个组织的单细胞数据集构建了小鼠、人以及COVID-19等三套大规模单细胞图谱。
SCALEX有一个特殊的优势,就是它的高泛化性的编码器。这个编码器可以通过单细胞测序数据投射,生成一个批次无关的统一低维细胞嵌入空间。对于新产生的数据,SCALEX不需要重新训练编码器,就可以将新数据投射到这个统一的低维细胞嵌入空间。这种整合方式被称为“在线整合”(online integration)。在线整合带来一个巨大的好处,就是很容易将新数据与原来生成的单细胞图谱等奠基性数据(需要由通过SCALEX数据整合生成)进行比较分析,从而从奠基性数据得到生物学知识方面的启发和指引,直接支持数据注释、规律验证等分析任务。另外,原有单细胞图谱的细胞内涵也在不断添加新数据的过程中,得到丰富和扩充,赋能新的生物学发现。
综上所述,研究者们开发了SCALEX单细胞测序数据人工智能分析工具,可以将不同批次细胞的基因表达谱映射到批次无关的统一低维细胞嵌入空间中,有效消除数据中的批次效应并保留细胞间固有的生物学差异,实现不同批次数据的有效整合。SCALEX适用于图谱级别的单细胞测序数据整合,将在整个生命科学和生物医学领域正在进行的超大规模单细胞图谱等研究计划中提供基础支持。
清华大学生命科学学院张强锋副教授为本文通讯作者,清华大学生命科学学院2015级博士生熊磊(已毕业)和2018级博士生田康为该论文共同第一作者,2019级博士生李雨哲和2021级博士生宁微希对文章中的数据分析提供了重要帮助,百图生科(BioMap)研究院主任、人工智能科学家、阿卜杜拉国王科技大学计算生物学家高欣教授参与合作研究。
本工作得到国家重点研发计划、国家自然科学基金、北京市结构生物学高精尖创新中心、清华-北大生命科学联合中心、清华大学计算平台、上海期智研究院和阿卜杜拉国王科技大学研究管理办公室的支持。
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
物理学院孙栋课题组与合作者利用中红外圆偏振光电效应为外尔半导体提供了有力证据
清华大学深圳国际研究生院康飞宇团队系统论述天然石墨深加工技术发展及锂电池应用
深圳研究生院潘锋团队在Nature Protocols发表界面水微观结构研究突破
浙江大学左立见研究员、陈红征教授团队与海外合作者在有机光伏器件物理机制研究方面取得进展
北京大学材料学院郭少军课题组在《自然•合成》发文报道人工光合成过氧化氢的高效光催化剂
第四届计算机图形学、图像与虚拟化研究国际会议(ICCGIV 2024)(2024-05-17)
第九届机电控制技术与交通运输国际学术会议(ICECTT 2024)(2024-05-24)
2024年教育政策与实践研讨会(ICEPP 2024)(2024-05-24)
第三届机电一体化与机械工程国际会议(ICMME2024)(2024-05-24)
2024年电子器件、传感控制技术与光学机械工程国际学术会议(EDSCTOE 2024)(2024-05-25)
第十四届地质和地球物理学国际会议(ICGG 2024)(2024-05-31)
2024年食品工程与农业科学国际会议(ICFEAS 2024)(2024-06-02)
2024年第三届网络、通信与信息技术国际会议(CNCIT 2024)(2024-06-07)
第十届机械工程、材料和自动化技术国际会议(MMEAT 2024)(2024-06-21)
2024年先进机器人,自动化工程与机器学习国际会议(ARAEML 2024)(2024-06-28)
2024年大数据,供应链与物联网国际会议(BDSCIT 2024)(2024-6-30)
2024文化、社会发展与人文教育国际会议(CSDHE 2024)(2024-5-30)
2024年环境工程与能源系统国际学术会议(ICEEES 2024)(2024-5-29)
2024电子商务、现代物流与供应链管理国际会议(EMLSCM 2024)(2024-5-30)
2024年计算机科学与信号处理国际会议(CSSP 2024)(2024-7-27)
2024创意产业与信息化经济发展国际会议(ICCIIED 2024)(2024-6-30)
2024能源动力与新能源科学国际学术会议 (ICEPNES 2024)(2024-6-22)
2024年建筑结构与物理力学国际会议(ICBSPM 2024)(2024-5-25)
第十一届农业科学与食品工程国际研讨会(ASFE 2024)(2024-5-28)
2024年食品科学、化学与生物医学国际会议(ICFCB 2024)(2024-6-30)