高歌团队提出跨模态表征学习新方法
2024/04/12
细胞中的生物过程涉及到DNA、RNA、蛋白质等多种不同层次的调控,它们相互影响,共同发挥作用,因此,整合不同组学数据对应的多模态信息是全面表征细胞生理/病理状态的前提与关键2。
近年来,单细胞多组学技术的发展使得生物学家可以同时在一个细胞中测得不同的模态/组学信息(SHARE-seq3、Sci-Car4、InCite-seq5、10X multiome),有了对同一个系统的不同模态的认识,可以进一步加深对重要生命过程的理解,比如疾病、胚胎发育6–8。但是这些多组学技术相较于之前的单组学技术,实际应用更困难,花费成本更高,得到的数据质量也更差。因此开发一种计算方法,来利用这些单细胞的多组学数据作为监督信号,整合目前已有的大量高质量的单模态数据将会对这个领域提供巨大的帮助(图1)9。

图1 在单细胞组学研究中的跨模态表征学习
针对这一问题,北京大学/昌平实验室高歌研究员团队提出了跨模态表征学习下的交联表征学习框架(Cross-linked Unified Embedding)1,相关论文被人工智能领域顶会NeurIPS 2022 接受,并获邀请作专题亮点报告(oral presentation) ,相关论文和代码均已开源。
单细胞多模态数据整合的常见范式是通过每个模态特有的编码器,将来自不同特征空间的数据投影到低维空间中,再通过学习匹配函数(alignment methods) ,利用来自多组学技术的配对监督信号将模态特异的低维表征整合到一起。但是这些方法都有一个共同的局限,他们没有考虑到不同模态之间的分辨率是不同的,比如免疫细胞在表面蛋白这个模态上拥有更细致的表征,但是在整体基因表达上差异相对较小。因此在整合过程中,低分辨率的基因表达空间会影响高分辨的蛋白空间,从而损失这些模态特异性的信息。换言之,这些不同模态之间会相互掣肘,而不是共同促进。
为了解决这个问题,CLUE引入模态特异的表征子空间,对每个模态有一个对应的子空间来学习对应模态的信息,从而消除不同模态之间由分辨率不同产生的互相限制。与此同时,CLUE进一步针对不同模态使用自模态编码器(self-encoder),来学习单个模态中的原始信息,利用跨模态编码器(cross-encoder)学习不同模态之间的信息,进而通过多模态之间的映射将这些来自不同模态的表征整合到一起(图2)。

图2 CLUE模型框架示意图
除此之外,CLUE也引入了对抗学习(Adversarial learning)以此消除不同模态之间的表征差异,以及借助多组学的监督信号来优化配对多模态表征的均方误差(mean square error),从而进一步提高整合的准确性。
在首届NeurIPS多模态单细胞数据整合竞赛中,CLUE在包括单细胞染色质开放组/转录组/表面蛋白组在内的所有整合类别跨模态整合中均以压倒性优势取得了冠军(图3)10。与此同时,CLUE在于MultiVI、Cobolt、Bridge-integration等尚未参加比赛的整合方法的比较中也取得了最优的表现。
CLUE在单细胞多组学中的相关模型已经整合入高歌课题组此前开发的基于Python的开源软件包GLUE(https://github.com/gao-lab/GLUE)11中。值得注意的是,CLUE的设计并不局限于单细胞多组学数据,原则上可以被扩展应用至图像/文本/音频等多种模态领域。

图3 CLUE在单细胞染色质开放组,转录组,表面蛋白组上的整合结果
北京大学生命科学学院本科生屠鑫明(现华盛顿大学在读博士生),北京大学“博雅”博士后曹智杰博士为该论文共同第一作者,北京大学研究生夏辰睿为共同作者,高歌为本文通讯作者,屠鑫明现导师华盛顿大学Sara Mostafavi教授为该论文的共同通讯作者。该研究得到了国家重点研发计划、蛋白质与植物基因研究国家重点实验室、北京未来基因诊断高精尖创新中心和昌平实验室的资助。
开源代码:https://github.com/gao-lab/GLUE
论文全文:https://openreview.net/pdf?id="Tfb73TeKnJ-
1. Tu, X*., Zhijie-Cao*, Xia, C., Mostafavi, S. & Gao, G. Cross-Linked Unified Embedding for cross-modality representation learning. in 36th Conference on Neural Information Processing Systems (NeurIPS 2022)
2. Stuart, T., Butler, A., Hoffman, P., Hafemeister, C., Papalexi, E., Mauck, W. M., Hao, Y., Stoeckius, M., Smibert, P. & Satija, R. Comprehensive Integration of Single-Cell Data. Cell177, (2019).
3. Ma, S., Zhang, B., LaFave, L. M., Earl, A. S., Chiang, Z., Hu, Y., Ding, J., Brack, A., Kartha, V. K., Tay, T., Law, T., Lareau, C., Hsu, Y.-C., Regev, A. & Buenrostro, J. D. Chromatin Potential Identified by Shared Single-Cell Profiling of RNA and Chromatin. Cell183, 1103-1116.e20 (2020).
4. Cao, J., Cusanovich, D. A., Ramani, V., Aghamirzaie, D., Pliner, H. A., Hill, A. J., Daza, R. M., McFaline-Figueroa, J. L., Packer, J. S., Christiansen, L., Steemers, F. J., Adey, A. C., Trapnell, C. & Shendure, J. Joint profiling of chromatin accessibility and gene expression in thousands of single cells. Science361, 1380 1385 (2018).
5. Chung, H., Parkhurst, C. N., Magee, E. M., Phillips, D., Habibi, E., Chen, F., Yeung, B. Z., Waldman, J., Artis, D. & Regev, A. Joint single-cell measurements of nuclear proteins and RNA in vivo. Nat Methods18, 1204–1212 (2021).
6. Janssens, J., Aibar, S., Taskiran, I. I., Ismail, J. N., Gomez, A. E., Aughey, G., Spanier, K. I., Rop, F. V. D., González-Blas, C. B., Dionne, M., Grimes, K., Quan, X. J., Papasokrati, D., Hulselmans, G., Makhzami, S., Waegeneer, M. D., Christiaens, V., Southall, T. & Aerts, S. Decoding gene regulation in the fly brain. Nature 1–7 (2022). doi:10.1038/s41586-021-04262-z
7. Argelaguet, R., Clark, S. J., Mohammed, H., Stapel, L. C., Krueger, C., Kapourani, C.-A., Imaz-Rosshandler, I., Lohoff, T., Xiang, Y., Hanna, C. W., Smallwood, S., Ibarra-Soria, X., Buettner, F., Sanguinetti, G., Xie, W., Krueger, F., Göttgens, B., Rugg-Gunn, P. J., Kelsey, G., Dean, W., Nichols, J., Stegle, O., Marioni, J. C. & Reik, W. Multi-omics profiling of mouse gastrulation at single-cell resolution. Nature576, 487–491 (2019).
8. Welch, J. D., Kozareva, V., Ferreira, A., Vanderburg, C., Martin, C. & Macosko, E. Z. Single-Cell Multi-omic Integration Compares and Contrasts Features of Brain Cell Identity. Cell177, (2019).
9. Argelaguet, R., Cuomo, A. S. E., Stegle, O. & Marioni, J. C. Computational principles and challenges in single-cell data integration. Nat Biotechnol39, 1202–1215 (2021).
10. Lance, C., Luecken, M. D., Burkhardt, D. B., Cannoodt, R., Rautenstrauch, P., Laddach, A., Ubingazhibov, A., Cao, Z.-J., Deng, K., Khan, S., Liu, Q., Russkikh, N., Ryazantsev, G., Ohler, U., participants, N. 2021 M. data integration competition, Pisco, A. O., Bloom, J., Krishnaswamy, S. & Theis, F. J. Multimodal single cell data integration challenge: results and lessons learned. Biorxiv 2022.04.11.487796 (2022). doi:10.1101/2022.04.11.487796
11. Cao, Z.-J. & Gao, G. Multi-omics single-cell data integration and regulatory inference with graph-linked embedding. Nat Biotechnol 1–9 (2022). doi:10.1038/s41587-022-01284-4
文章来源北京大学新闻网,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年第五届机器学习、云计算与智 26
-
2026年第二届计算机视觉与机器学习 627
-
2026年6月优质国际学术会议推荐 1157
-
2026年智慧教育与数据挖掘国际学术 813
-
2026年第11届生物医学信号与图像 697
-
2026资源、化学化工与应用材料国际 2559
-
2026年图像处理与数字创意设计国际 2369
-
2026年机械工程,新能源与电气技术 6849
-
2026年材料科学、低碳技术与动力工 2524
-
2026年海洋科学、水利工程与环境管 06-18
-
2026年环境工程、材料科学与循环经 06-18
-
2026年航空动力、流体力学与热物理 06-18
-
2026年地球化学、核物理与地质学国 06-18
-
2026年微机电、物理学与建模仿真国 06-18
-
2026年机械工程、电子技术与自动化 06-18
-
2026 JCR影响因子正式发布272
-
中国科协发布2025年《重要学术858
-
2026年新锐分区(原中科院期刊5648
-
2025年两院院士增选有效候选人5280
-
好学术:科研网址导航|学术头条分6842
-
2025年国际期刊预警名单发布!7028
-
2025年中科院期刊分区表重磅发24788
-
吉林大学校长张希:学术会议中的提8093
-
研究表明太阳耀斑终端激波可作为地06-24
-
研究揭示藻—菌共生体系强化养殖尾06-24
-
双功能手性双核镍催化研究获进展06-24
-
研究发现银河系中心极端环境下大质06-24
-
废塑料升级利用研究取得进展06-24
-
硒太阳能电池研究取得进展06-24
-
南京大学王涛团队首次发现110亿06-24
-
南京市长江都市建筑设计股份有限公 2316

-
cdtu_wang 18359

-
香港机械工程师协会 23532

-
海南大学 18329

-
芮徕堡(上海)展览服务有限公司 24390

-
上海亚化工程咨询有限公司 18390

-
上海商图信息咨询有限公司 23592

-
总参工程兵科研三所 19264

-
中国城镇改革发展研究中心 2413

-
黑龙江八一农垦大学 8476

-
武汉赛思会务有限公司 24452

-
泰安市迈迪医疗电子有限公司 18566

-
北京邮电大学 18738

-
上海市解剖学会 24380

-
上海广告有限公司 8364

-
点时文化传媒(北京)有限公司 2313

-
百奥泰 2549

-
西安华线石油科技有限公司 8293

-
HKSME 24383

-
北京华一康健国际医院管理中心 24409





















898









































