清华大学生命学院张强锋课题组开发单细胞测序数据在线整合的人工智能算法
2024/04/23
随着单细胞测序技术的发展,单细胞科学研究不断深入,规模越来越大,所研究的对象也越来越复杂。整合来源不同的单细胞测序数据,消除批次效应,进行全面挖掘和解析,是现在单细胞测序数据分析的一个基础和核心环节。目前单细胞测序数据整合面临以下几方面难题:第一,不同实验样本、实验平台、建库方法乃至操作等因素带来的批次效应会在单细胞测序数据中引入非生物学噪音,干扰细胞间生物学差异的提取和解析;第二,单细胞研究的规模不断扩大,百万细胞数目级别的数据对整合算法的效率提出了更高的要求;第三,单细胞测序样本的类型也在不断增加,不同的单细胞测序数据集通常包括高度异质的细胞亚群;第四,最重要的一点,如何充分重复利用大量已有数据的旧知识,对新数据进行探索和解析。目前单细胞测序数据整合算法大多基于不同批次数据间的细胞相似性来矫正批次效应,存在过度整合(尤其是整合细胞异质性差异较大的数据集)、可扩展性差、无法直接将已有模型应用到新数据集上等弊端。
10月17日,清华大学生命科学学院/结构生物学高精尖创新中心/清华-北大生命科学联合中心张强锋副教授课题组在《自然·通讯》(Nature Communications)期刊在线发表题为“通过将异构数据集投影到统一的细胞嵌入空间中进行单细胞测序数据在线整合”(Online single-cell data integration through projecting heterogeneous datasets into a common cell-embedding space)的研究论文。在该研究中,他们开发了基于变分自编码器(variational autoencoder)深度学习框架的人工智能算法SCALEX,可以对单细胞测序数据进行在线整合。SCALEX采用一个批次无关的编码器和批次特异的解码器组成的非对称自编码器结构,进行大量学习得到一个高泛化性的编码器,该编码器通过将高维单细胞测序数据投射到低维细胞嵌入空间(cell embedding space),在保留生物学差异的同时消除批次效应。

SCALEX模型框架
SCALEX主要有以下四点主要特征:第一,相较于目前已有的单细胞测序数据整合方法,SCALEX在整合准确性上具有明显优势;第二,SACLEX在百万单细胞数据量下仍保持很高的计算效率,适用于超高通量单细胞测序数据整合分析工作;第三,SCALEX有效避免了单细胞测序数据整合中的过校正情形,适用于异质性高、复杂样本的整合;第四,支持单细胞RNA-seq,单细胞ATAC-seq等多组学整合数据整合。这些特征使得SCALEX适用于构建单细胞图谱。开发人员整合多项研究、多个组织的单细胞数据集构建了小鼠、人以及COVID-19等三套大规模单细胞图谱。
SCALEX有一个特殊的优势,就是它的高泛化性的编码器。这个编码器可以通过单细胞测序数据投射,生成一个批次无关的统一低维细胞嵌入空间。对于新产生的数据,SCALEX不需要重新训练编码器,就可以将新数据投射到这个统一的低维细胞嵌入空间。这种整合方式被称为“在线整合”(online integration)。在线整合带来一个巨大的好处,就是很容易将新数据与原来生成的单细胞图谱等奠基性数据(需要由通过SCALEX数据整合生成)进行比较分析,从而从奠基性数据得到生物学知识方面的启发和指引,直接支持数据注释、规律验证等分析任务。另外,原有单细胞图谱的细胞内涵也在不断添加新数据的过程中,得到丰富和扩充,赋能新的生物学发现。
综上所述,研究者们开发了SCALEX单细胞测序数据人工智能分析工具,可以将不同批次细胞的基因表达谱映射到批次无关的统一低维细胞嵌入空间中,有效消除数据中的批次效应并保留细胞间固有的生物学差异,实现不同批次数据的有效整合。SCALEX适用于图谱级别的单细胞测序数据整合,将在整个生命科学和生物医学领域正在进行的超大规模单细胞图谱等研究计划中提供基础支持。
清华大学生命科学学院张强锋副教授为本文通讯作者,清华大学生命科学学院2015级博士生熊磊(已毕业)和2018级博士生田康为该论文共同第一作者,2019级博士生李雨哲和2021级博士生宁微希对文章中的数据分析提供了重要帮助,百图生科(BioMap)研究院主任、人工智能科学家、阿卜杜拉国王科技大学计算生物学家高欣教授参与合作研究。
本工作得到国家重点研发计划、国家自然科学基金、北京市结构生物学高精尖创新中心、清华-北大生命科学联合中心、清华大学计算平台、上海期智研究院和阿卜杜拉国王科技大学研究管理办公室的支持。
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
- 
  2025年11月优质学术会议推荐 16
   - 
  2025年机器视觉、智能成像与模式识 392
   - 
  2025年第七届控制与机器人国际会议 576
   - 
  2025年智能光子学与应用技术国际学 1529
   - 
  2025年机械工程,新能源与电气技术 1790
   - 
  2025年计算机科学、图像分析与信号 2065
   - 
  2025年材料化学与燃料电池技术国际 1861
   - 
  2025年自动化前沿系统、智慧城市与 10-23
   - 
  2025年信息光学、遥感技术与机器视 10-23
   - 
  2025年数字人文、文化遗产与语言学 10-23
   - 
  2025年神经科学、生物信息学与智能 10-23
   - 
  2025年语言认知、人工智能与计算建 10-23
   - 
  2025年社会科学、应用语言学与人文 10-23
   - 
  2025年传统机械、动力学与智能装备 10-23
   - 
  2025年图像处理、物理建模与结构设 10-23
   
- 
  2025年两院院士增选有效候选人1145
 - 
  2025最新JCR分区及影响因子4758
 - 
  好学术:科研网址导航|学术头条分2033
 - 
  2025年国际期刊预警名单发布!1930
 - 
  2025年中科院期刊分区表重磅发8447
 - 
  中国科协《重要学术会议目录(205134
 - 
  吉林大学校长张希:学术会议中的提2840
 - 
  清华大学地学系阳坤课题组揭示全球10-20
 - 
  历史时期极端干旱灾害的数据评估和10-20
 - 
  “清华化学百年论坛:塑造化学的未10-20
 - 
  研究揭示植物激素独脚金内酯作为跨10-20
 - 
  清华大学联合研发的“46MW大容10-20
 - 
  清华大学(软件学院)-九疆电力建10-20
 - 
  中国农业大学土地学院马韫韬教授团10-20
 - 
  电子科技大学光电学院本科生在一区10-20
 
- 
  武汉海讯科技会务有限公司 18254

 - 
  青阳邮政储蓄 17900

 - 
  IETP-Association 24143

 - 
  重庆大学 23086

 - 
  华中农业大学信息学院 21116

 - 
  百奥泰国际会议(大连)有限公司 20976

 - 
  WILL 21042

 - 
  中国环境科学学会 20901

 - 
  河南科技学院 18536

 - 
  无锡颐和港湾酒店 18035

 - 
  同方知网 24333

 - 
  上海新华投资发展有限公司 18196

 - 
  中南大学 18148

 - 
  河南开封欧帕自动化有限公司 18085

 - 
  黄山市富伟会议会展公司 24177

 - 
  北京师范大学环境学院 21119

 - 
  北京交通大学 2253

 - 
  IETP 24064

 - 
  清华大学持久性有机污染物研究中心 21405

 - 
  北京联佳业广告有限公司 2042

 
						
					 
					















 693











































						
						