高歌团队提出跨模态表征学习新方法
2024/04/12
细胞中的生物过程涉及到DNA、RNA、蛋白质等多种不同层次的调控,它们相互影响,共同发挥作用,因此,整合不同组学数据对应的多模态信息是全面表征细胞生理/病理状态的前提与关键2。
近年来,单细胞多组学技术的发展使得生物学家可以同时在一个细胞中测得不同的模态/组学信息(SHARE-seq3、Sci-Car4、InCite-seq5、10X multiome),有了对同一个系统的不同模态的认识,可以进一步加深对重要生命过程的理解,比如疾病、胚胎发育6–8。但是这些多组学技术相较于之前的单组学技术,实际应用更困难,花费成本更高,得到的数据质量也更差。因此开发一种计算方法,来利用这些单细胞的多组学数据作为监督信号,整合目前已有的大量高质量的单模态数据将会对这个领域提供巨大的帮助(图1)9。

图1 在单细胞组学研究中的跨模态表征学习
针对这一问题,北京大学/昌平实验室高歌研究员团队提出了跨模态表征学习下的交联表征学习框架(Cross-linked Unified Embedding)1,相关论文被人工智能领域顶会NeurIPS 2022 接受,并获邀请作专题亮点报告(oral presentation) ,相关论文和代码均已开源。
单细胞多模态数据整合的常见范式是通过每个模态特有的编码器,将来自不同特征空间的数据投影到低维空间中,再通过学习匹配函数(alignment methods) ,利用来自多组学技术的配对监督信号将模态特异的低维表征整合到一起。但是这些方法都有一个共同的局限,他们没有考虑到不同模态之间的分辨率是不同的,比如免疫细胞在表面蛋白这个模态上拥有更细致的表征,但是在整体基因表达上差异相对较小。因此在整合过程中,低分辨率的基因表达空间会影响高分辨的蛋白空间,从而损失这些模态特异性的信息。换言之,这些不同模态之间会相互掣肘,而不是共同促进。
为了解决这个问题,CLUE引入模态特异的表征子空间,对每个模态有一个对应的子空间来学习对应模态的信息,从而消除不同模态之间由分辨率不同产生的互相限制。与此同时,CLUE进一步针对不同模态使用自模态编码器(self-encoder),来学习单个模态中的原始信息,利用跨模态编码器(cross-encoder)学习不同模态之间的信息,进而通过多模态之间的映射将这些来自不同模态的表征整合到一起(图2)。

图2 CLUE模型框架示意图
除此之外,CLUE也引入了对抗学习(Adversarial learning)以此消除不同模态之间的表征差异,以及借助多组学的监督信号来优化配对多模态表征的均方误差(mean square error),从而进一步提高整合的准确性。
在首届NeurIPS多模态单细胞数据整合竞赛中,CLUE在包括单细胞染色质开放组/转录组/表面蛋白组在内的所有整合类别跨模态整合中均以压倒性优势取得了冠军(图3)10。与此同时,CLUE在于MultiVI、Cobolt、Bridge-integration等尚未参加比赛的整合方法的比较中也取得了最优的表现。
CLUE在单细胞多组学中的相关模型已经整合入高歌课题组此前开发的基于Python的开源软件包GLUE(https://github.com/gao-lab/GLUE)11中。值得注意的是,CLUE的设计并不局限于单细胞多组学数据,原则上可以被扩展应用至图像/文本/音频等多种模态领域。

图3 CLUE在单细胞染色质开放组,转录组,表面蛋白组上的整合结果
北京大学生命科学学院本科生屠鑫明(现华盛顿大学在读博士生),北京大学“博雅”博士后曹智杰博士为该论文共同第一作者,北京大学研究生夏辰睿为共同作者,高歌为本文通讯作者,屠鑫明现导师华盛顿大学Sara Mostafavi教授为该论文的共同通讯作者。该研究得到了国家重点研发计划、蛋白质与植物基因研究国家重点实验室、北京未来基因诊断高精尖创新中心和昌平实验室的资助。
开源代码:https://github.com/gao-lab/GLUE
论文全文:https://openreview.net/pdf?id="Tfb73TeKnJ-
1. Tu, X*., Zhijie-Cao*, Xia, C., Mostafavi, S. & Gao, G. Cross-Linked Unified Embedding for cross-modality representation learning. in 36th Conference on Neural Information Processing Systems (NeurIPS 2022)
2. Stuart, T., Butler, A., Hoffman, P., Hafemeister, C., Papalexi, E., Mauck, W. M., Hao, Y., Stoeckius, M., Smibert, P. & Satija, R. Comprehensive Integration of Single-Cell Data. Cell177, (2019).
3. Ma, S., Zhang, B., LaFave, L. M., Earl, A. S., Chiang, Z., Hu, Y., Ding, J., Brack, A., Kartha, V. K., Tay, T., Law, T., Lareau, C., Hsu, Y.-C., Regev, A. & Buenrostro, J. D. Chromatin Potential Identified by Shared Single-Cell Profiling of RNA and Chromatin. Cell183, 1103-1116.e20 (2020).
4. Cao, J., Cusanovich, D. A., Ramani, V., Aghamirzaie, D., Pliner, H. A., Hill, A. J., Daza, R. M., McFaline-Figueroa, J. L., Packer, J. S., Christiansen, L., Steemers, F. J., Adey, A. C., Trapnell, C. & Shendure, J. Joint profiling of chromatin accessibility and gene expression in thousands of single cells. Science361, 1380 1385 (2018).
5. Chung, H., Parkhurst, C. N., Magee, E. M., Phillips, D., Habibi, E., Chen, F., Yeung, B. Z., Waldman, J., Artis, D. & Regev, A. Joint single-cell measurements of nuclear proteins and RNA in vivo. Nat Methods18, 1204–1212 (2021).
6. Janssens, J., Aibar, S., Taskiran, I. I., Ismail, J. N., Gomez, A. E., Aughey, G., Spanier, K. I., Rop, F. V. D., González-Blas, C. B., Dionne, M., Grimes, K., Quan, X. J., Papasokrati, D., Hulselmans, G., Makhzami, S., Waegeneer, M. D., Christiaens, V., Southall, T. & Aerts, S. Decoding gene regulation in the fly brain. Nature 1–7 (2022). doi:10.1038/s41586-021-04262-z
7. Argelaguet, R., Clark, S. J., Mohammed, H., Stapel, L. C., Krueger, C., Kapourani, C.-A., Imaz-Rosshandler, I., Lohoff, T., Xiang, Y., Hanna, C. W., Smallwood, S., Ibarra-Soria, X., Buettner, F., Sanguinetti, G., Xie, W., Krueger, F., Göttgens, B., Rugg-Gunn, P. J., Kelsey, G., Dean, W., Nichols, J., Stegle, O., Marioni, J. C. & Reik, W. Multi-omics profiling of mouse gastrulation at single-cell resolution. Nature576, 487–491 (2019).
8. Welch, J. D., Kozareva, V., Ferreira, A., Vanderburg, C., Martin, C. & Macosko, E. Z. Single-Cell Multi-omic Integration Compares and Contrasts Features of Brain Cell Identity. Cell177, (2019).
9. Argelaguet, R., Cuomo, A. S. E., Stegle, O. & Marioni, J. C. Computational principles and challenges in single-cell data integration. Nat Biotechnol39, 1202–1215 (2021).
10. Lance, C., Luecken, M. D., Burkhardt, D. B., Cannoodt, R., Rautenstrauch, P., Laddach, A., Ubingazhibov, A., Cao, Z.-J., Deng, K., Khan, S., Liu, Q., Russkikh, N., Ryazantsev, G., Ohler, U., participants, N. 2021 M. data integration competition, Pisco, A. O., Bloom, J., Krishnaswamy, S. & Theis, F. J. Multimodal single cell data integration challenge: results and lessons learned. Biorxiv 2022.04.11.487796 (2022). doi:10.1101/2022.04.11.487796
11. Cao, Z.-J. & Gao, G. Multi-omics single-cell data integration and regulatory inference with graph-linked embedding. Nat Biotechnol 1–9 (2022). doi:10.1038/s41587-022-01284-4
文章来源北京大学新闻网,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
- 
  2025年11月优质学术会议推荐 16
   - 
  2025年机器视觉、智能成像与模式识 392
   - 
  2025年第七届控制与机器人国际会议 576
   - 
  2025年智能光子学与应用技术国际学 1529
   - 
  2025年机械工程,新能源与电气技术 1790
   - 
  2025年计算机科学、图像分析与信号 2065
   - 
  2025年材料化学与燃料电池技术国际 1861
   - 
  2025年自动化前沿系统、智慧城市与 10-23
   - 
  2025年信息光学、遥感技术与机器视 10-23
   - 
  2025年数字人文、文化遗产与语言学 10-23
   - 
  2025年神经科学、生物信息学与智能 10-23
   - 
  2025年语言认知、人工智能与计算建 10-23
   - 
  2025年社会科学、应用语言学与人文 10-23
   - 
  2025年传统机械、动力学与智能装备 10-23
   - 
  2025年图像处理、物理建模与结构设 10-23
   
- 
  2025年两院院士增选有效候选人1145
 - 
  2025最新JCR分区及影响因子4758
 - 
  好学术:科研网址导航|学术头条分2033
 - 
  2025年国际期刊预警名单发布!1930
 - 
  2025年中科院期刊分区表重磅发8447
 - 
  中国科协《重要学术会议目录(205134
 - 
  吉林大学校长张希:学术会议中的提2840
 - 
  清华大学地学系阳坤课题组揭示全球10-20
 - 
  历史时期极端干旱灾害的数据评估和10-20
 - 
  “清华化学百年论坛:塑造化学的未10-20
 - 
  研究揭示植物激素独脚金内酯作为跨10-20
 - 
  清华大学联合研发的“46MW大容10-20
 - 
  清华大学(软件学院)-九疆电力建10-20
 - 
  中国农业大学土地学院马韫韬教授团10-20
 - 
  电子科技大学光电学院本科生在一区10-20
 
- 
  石家庄铁道大学 21013

 - 
  中国国际经济发展促进会 18599

 - 
  厦门大学公共事务学院 21092

 - 
  能源工程与环境保护国际会议 24114

 - 
  氢生物医学与老年慢病论坛暨中国医 23004

 - 
  南方电网深圳供电局 2012

 - 
  上海复毅文化传播有限公司 24197

 - 
  北京思高乐教育科技有限公司 24134

 - 
  燕山大学 24354

 - 
  武汉企泰艾会科技有限公司 2324

 - 
  福建师范大学 24211

 - 
  中国健康促进协会 24173

 - 
  经济技术开发区大连大学 18092

 - 
  杭州爱丁堡酒店 18265

 - 
  江苏扬子会展服务有限公司 1591

 - 
  岭南师范学院 8368

 - 
  南京财经大学马克思主义学院 21033

 - 
  亚太科学与工程研究所 23222

 - 
  International As 8028

 - 
  武汉理工大学 24164

 
						
					 
					















 693











































						
						