高歌团队提出跨模态表征学习新方法
2024/04/12
细胞中的生物过程涉及到DNA、RNA、蛋白质等多种不同层次的调控,它们相互影响,共同发挥作用,因此,整合不同组学数据对应的多模态信息是全面表征细胞生理/病理状态的前提与关键2。
近年来,单细胞多组学技术的发展使得生物学家可以同时在一个细胞中测得不同的模态/组学信息(SHARE-seq3、Sci-Car4、InCite-seq5、10X multiome),有了对同一个系统的不同模态的认识,可以进一步加深对重要生命过程的理解,比如疾病、胚胎发育6–8。但是这些多组学技术相较于之前的单组学技术,实际应用更困难,花费成本更高,得到的数据质量也更差。因此开发一种计算方法,来利用这些单细胞的多组学数据作为监督信号,整合目前已有的大量高质量的单模态数据将会对这个领域提供巨大的帮助(图1)9。

图1 在单细胞组学研究中的跨模态表征学习
针对这一问题,北京大学/昌平实验室高歌研究员团队提出了跨模态表征学习下的交联表征学习框架(Cross-linked Unified Embedding)1,相关论文被人工智能领域顶会NeurIPS 2022 接受,并获邀请作专题亮点报告(oral presentation) ,相关论文和代码均已开源。
单细胞多模态数据整合的常见范式是通过每个模态特有的编码器,将来自不同特征空间的数据投影到低维空间中,再通过学习匹配函数(alignment methods) ,利用来自多组学技术的配对监督信号将模态特异的低维表征整合到一起。但是这些方法都有一个共同的局限,他们没有考虑到不同模态之间的分辨率是不同的,比如免疫细胞在表面蛋白这个模态上拥有更细致的表征,但是在整体基因表达上差异相对较小。因此在整合过程中,低分辨率的基因表达空间会影响高分辨的蛋白空间,从而损失这些模态特异性的信息。换言之,这些不同模态之间会相互掣肘,而不是共同促进。
为了解决这个问题,CLUE引入模态特异的表征子空间,对每个模态有一个对应的子空间来学习对应模态的信息,从而消除不同模态之间由分辨率不同产生的互相限制。与此同时,CLUE进一步针对不同模态使用自模态编码器(self-encoder),来学习单个模态中的原始信息,利用跨模态编码器(cross-encoder)学习不同模态之间的信息,进而通过多模态之间的映射将这些来自不同模态的表征整合到一起(图2)。

图2 CLUE模型框架示意图
除此之外,CLUE也引入了对抗学习(Adversarial learning)以此消除不同模态之间的表征差异,以及借助多组学的监督信号来优化配对多模态表征的均方误差(mean square error),从而进一步提高整合的准确性。
在首届NeurIPS多模态单细胞数据整合竞赛中,CLUE在包括单细胞染色质开放组/转录组/表面蛋白组在内的所有整合类别跨模态整合中均以压倒性优势取得了冠军(图3)10。与此同时,CLUE在于MultiVI、Cobolt、Bridge-integration等尚未参加比赛的整合方法的比较中也取得了最优的表现。
CLUE在单细胞多组学中的相关模型已经整合入高歌课题组此前开发的基于Python的开源软件包GLUE(https://github.com/gao-lab/GLUE)11中。值得注意的是,CLUE的设计并不局限于单细胞多组学数据,原则上可以被扩展应用至图像/文本/音频等多种模态领域。

图3 CLUE在单细胞染色质开放组,转录组,表面蛋白组上的整合结果
北京大学生命科学学院本科生屠鑫明(现华盛顿大学在读博士生),北京大学“博雅”博士后曹智杰博士为该论文共同第一作者,北京大学研究生夏辰睿为共同作者,高歌为本文通讯作者,屠鑫明现导师华盛顿大学Sara Mostafavi教授为该论文的共同通讯作者。该研究得到了国家重点研发计划、蛋白质与植物基因研究国家重点实验室、北京未来基因诊断高精尖创新中心和昌平实验室的资助。
开源代码:https://github.com/gao-lab/GLUE
论文全文:https://openreview.net/pdf?id="Tfb73TeKnJ-
1. Tu, X*., Zhijie-Cao*, Xia, C., Mostafavi, S. & Gao, G. Cross-Linked Unified Embedding for cross-modality representation learning. in 36th Conference on Neural Information Processing Systems (NeurIPS 2022)
2. Stuart, T., Butler, A., Hoffman, P., Hafemeister, C., Papalexi, E., Mauck, W. M., Hao, Y., Stoeckius, M., Smibert, P. & Satija, R. Comprehensive Integration of Single-Cell Data. Cell177, (2019).
3. Ma, S., Zhang, B., LaFave, L. M., Earl, A. S., Chiang, Z., Hu, Y., Ding, J., Brack, A., Kartha, V. K., Tay, T., Law, T., Lareau, C., Hsu, Y.-C., Regev, A. & Buenrostro, J. D. Chromatin Potential Identified by Shared Single-Cell Profiling of RNA and Chromatin. Cell183, 1103-1116.e20 (2020).
4. Cao, J., Cusanovich, D. A., Ramani, V., Aghamirzaie, D., Pliner, H. A., Hill, A. J., Daza, R. M., McFaline-Figueroa, J. L., Packer, J. S., Christiansen, L., Steemers, F. J., Adey, A. C., Trapnell, C. & Shendure, J. Joint profiling of chromatin accessibility and gene expression in thousands of single cells. Science361, 1380 1385 (2018).
5. Chung, H., Parkhurst, C. N., Magee, E. M., Phillips, D., Habibi, E., Chen, F., Yeung, B. Z., Waldman, J., Artis, D. & Regev, A. Joint single-cell measurements of nuclear proteins and RNA in vivo. Nat Methods18, 1204–1212 (2021).
6. Janssens, J., Aibar, S., Taskiran, I. I., Ismail, J. N., Gomez, A. E., Aughey, G., Spanier, K. I., Rop, F. V. D., González-Blas, C. B., Dionne, M., Grimes, K., Quan, X. J., Papasokrati, D., Hulselmans, G., Makhzami, S., Waegeneer, M. D., Christiaens, V., Southall, T. & Aerts, S. Decoding gene regulation in the fly brain. Nature 1–7 (2022). doi:10.1038/s41586-021-04262-z
7. Argelaguet, R., Clark, S. J., Mohammed, H., Stapel, L. C., Krueger, C., Kapourani, C.-A., Imaz-Rosshandler, I., Lohoff, T., Xiang, Y., Hanna, C. W., Smallwood, S., Ibarra-Soria, X., Buettner, F., Sanguinetti, G., Xie, W., Krueger, F., Göttgens, B., Rugg-Gunn, P. J., Kelsey, G., Dean, W., Nichols, J., Stegle, O., Marioni, J. C. & Reik, W. Multi-omics profiling of mouse gastrulation at single-cell resolution. Nature576, 487–491 (2019).
8. Welch, J. D., Kozareva, V., Ferreira, A., Vanderburg, C., Martin, C. & Macosko, E. Z. Single-Cell Multi-omic Integration Compares and Contrasts Features of Brain Cell Identity. Cell177, (2019).
9. Argelaguet, R., Cuomo, A. S. E., Stegle, O. & Marioni, J. C. Computational principles and challenges in single-cell data integration. Nat Biotechnol39, 1202–1215 (2021).
10. Lance, C., Luecken, M. D., Burkhardt, D. B., Cannoodt, R., Rautenstrauch, P., Laddach, A., Ubingazhibov, A., Cao, Z.-J., Deng, K., Khan, S., Liu, Q., Russkikh, N., Ryazantsev, G., Ohler, U., participants, N. 2021 M. data integration competition, Pisco, A. O., Bloom, J., Krishnaswamy, S. & Theis, F. J. Multimodal single cell data integration challenge: results and lessons learned. Biorxiv 2022.04.11.487796 (2022). doi:10.1101/2022.04.11.487796
11. Cao, Z.-J. & Gao, G. Multi-omics single-cell data integration and regulatory inference with graph-linked embedding. Nat Biotechnol 1–9 (2022). doi:10.1038/s41587-022-01284-4
文章来源北京大学新闻网,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年1月高含金量国际学术会议合 12-12
-
第四届金融科技与商业分析国际学术会议 686
-
2026年第十一届复合材料与材料工程 1453
-
2025年机器视觉、智能成像与模式识 2126
-
2025年智能光子学与应用技术国际学 3284
-
2026年机械工程,新能源与电气技术 3476
-
2025年计算机科学、图像分析与信号 3917
-
2025年材料化学与燃料电池技术国际 3633
-
2026年交通数字化、人工智能与韧性 12-19
-
2026年社会文化与公共管理国际会议 12-19
-
2026年人文地理与语言研究国际会议 12-19
-
2026年社会发展与经济发展国际会议 12-19
-
2026年光伏材料、光电转换与可再生 12-19
-
2026年可持续发展与数字化社会国际 12-19
-
2026年管理科学、语言与教育国际会 12-19
-
2025年两院院士增选有效候选人2672
-
2025最新JCR分区及影响因子7552
-
好学术:科研网址导航|学术头条分3540
-
2025年国际期刊预警名单发布!3510
-
2025年中科院期刊分区表重磅发13412
-
中国科协《重要学术会议目录(207866
-
吉林大学校长张希:学术会议中的提4517
-
中国科大提出电化学一体化驱动策12-19
-
中国科大实现电泵浦片上集成高亮度12-19
-
西北农林科技大学【陕西新闻联播】12-19
-
中国科大实现片上非相干泵浦高品质12-19
-
中国科大中性原子量子计算研究成果12-19
-
炔烃远端C-O键的不对称活化转化12-19
-
研究揭示叶片内生真菌分子功能多样12-19
-
科研人员提出柑橘黄龙病防控新策略12-19
-
北京东方正通科技有限公司 2273

-
GREAR 2104

-
沸点会展(广州)有限公司 8202

-
北京工商大学机械系 18138

-
百奥泰国际有限公司 23030

-
梵净山红豆杉开发有限公司 18117

-
世博威(上海)展览有限公司 21150

-
cosco-logistics 18229

-
武汉博倍会务有限公司 2052

-
广播电视中心文山人民广播电台 18536

-
IAASE 20983

-
中国食品药品监管信息网 2093

-
北京思高乐教育科技有限公司 24205

-
计算机 2001

-
天津大学 18164

-
亚太科学与工程研究所 23137

-
国际工程技术协会 18586

-
亚太科学工程学会 23268

-
中山大学 2509

-
杭州爱丁堡酒店 18331

















757









































