当前位置:首页 >> 学术资讯 >> 科研信息

自动化系生命基础模型实验室合作发表人工智能细胞大模型

2024/06/17

近年来,人工智能领域在大模型方面取得了显著进展,这些模型通过预训练的方式从大规模、多来源的数据中提取深层次规律,进而能够作为“基础模型”服务领域的多样化任务。例如,语言大模型通过学习大量文本数据,掌握了理解和识别语言的能力,引领了自然语言处理领域的新一轮革命。类似地,生命科学中的细胞的DNA序列、基因表达等属性也可以被视为一种细胞“语言”,如果能够基于这种细胞“语言”开发人工智能细胞大模型,将有望为生命科学和医学研究提供全新研究范式和革命性研究工具。

清华大学自动化系生命基础模型实验室主任张学工教授、电子系/AIR马剑竹教授和百图生科宋乐博士合作,建立了一个名为scFoundation的细胞大模型。该模型基于5000万个细胞的基因表达数据进行训练,拥有1亿参数,能够同时处理约20000个基因。作为基础模型,它在“虚拟药物试验”等多种生物医学下游任务中表现出卓越的性能提升,提供了人工智能在单细胞研究中的新范式(图1)。研究成果于2023年5月完成,2024年6月6日以“单细胞转录组大规模基础模型(Large-scale foundation model on single-cell transcriptomics)为题,发表于《自然·方法》(Nature Methods上。

图1.scFoundation模型及下游应用场景

细胞“语言”与自然语言不同,存在着特征高维度、取值连续且稀疏等难点。为此,研究团队针对性设计模型架构,使scFoundation的值编码模块可直接将连续的基因表达值转化为向量,并通过设计一个基于Transformer的非对称模型架构,在保持参数规模不变的同时幅提高了计算效率。此外,考虑到单细胞数据质量存在明显差异的特点,研究团队还设计了一种由低质量数据恢复高质量数据的预训练任务,进一步增强了预训练模型对不同来源下游数据的适应能力。

在实际应用中,scFoundation模型支持“开箱即用”和“微调”两种模式。在“开箱即用”模式下,得益于其独特的预训练任务,该模型能直接用于提升细胞数据的质量,在不需要进一步调整的情况下便可达到或超越现有方法的效果。此外,用户可以利用scFoundation提取细胞的预训练表征,该表征可以用于识别细胞类型特异基因模块和转录因子,并可广泛应用于“虚拟药物试验”等下游任务中。实验测试结果表明,利用scFoundation模型可以显著提升细胞癌症药物反应、细胞扰动实验等任务的性能。在“微调”模式下,scFoundation在细胞类型标注等任务上的表现远超传统方法。研究团队通过多项实验分析了模型中不同模块设计对性能的具体影响,相关模型细节已在NeurIPS2024的xTrimoGene模型文章中发表。目前模型权重及代码已开源,同时也提供了模型API供在线轻量使用。

综上所述,scFoundation模型为生命科学基础研究、细胞扰动响应预测、药物靶点发现等领域提供了创新方法工具,并在模型架构、训练框架和下游示范应用体系等方面为细胞大模型研究提供了新的思路和方法,成功地拓展了单细胞领域基础模型的边界,为开展数基空间中的虚拟药物实验等未来研究奠定了基础。

张学工、马剑竹、宋乐为论文通讯作者。清华大学自动化系2021级博士生郝敏升为论文第一作者。


版权声明:
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议

第七届计算机信息和大数据应用国际学术会议(CIBDA 2026)(2026-03-20)

2026年大数据与智能制造国际学术会议(BDIM 2026)(2026-03-20)

第六届智能制造与新材料国际学术会议(IMNM 2026)(2026-03-20)

2026年智慧交通与检测技术国际会议(ITDT 2026)(2026-03-25)

2026年第五届算法、计算和机器学习国际会议(CACML 2026)(2026-03-27)

2026年第六届智能机器人系统国际会议(ISoIRS 2026)(2026-03-27)

2026年人工智能教育技术与数据科学国际学术会议(AIETDS 2026)(2026-03-27)

第六届物联网与智慧城市国际学术会议(IoTSC 2026)(2026-03-27)

第十五届春季国际工程与技术大会 (SCET 2026)(2026-04-17)

2026年金融科技、创新与信息技术国际会议(2026-04-18)

2026年互联网技术与信息工程国际会议(ITIEIC 2026)(2026-4-25)

2026年工业大数据、智能制造与供应链管理国际会议(IBDMC 2026)(2026-4-21)

2026年人工智能、数据挖掘与网络安全国际会议(IADMC 2026)(2026-4-22)

2026政治经济学、教育与法学国际会议(ICPEEL 2026)(2026-4-24)

2026年量子计算与算法创新国际会议(QCAI 2026)(2026-4-20)

2026年数理统计与计算机技术国际会议(ICCTMS 2026)(2026-5-20)

2026年经济学、行为经济学与公共政策国际会议(ICEBEPP 2026)(2026-3-22)

2026电网、电力系统与数据模型国际会议(PGPSDM 2026)(2026-3-24)

2026能源、水动力学与电力系统国际会议(ICEHPS 2026)(2026-4-20)

2026年医学、神经科学与认知发展国际会议(MNCD 2026)(2026-4-23)

小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。
综合推荐区

学术科研网址导航,430+站,定制学术书签

2026年IEEE第六届先进电气,电子与计算.

2026年第五届云计算、计算机视觉和图像处理.

2026年第五届亚洲算法、计算与机器学习国际.

2026年动力学与机械工程国际学术研讨会 (.

2026年IEEE第八届软件工程和计算机科学.

2026年第八届计算机图形学、图像与可视化国.

第八届信息科学、电气与自动化工程国际学术会议.

2026年多尺度人工智能国际会议(MAI 2.

第三届机器学习与智能计算国际学术会议(MLI.

第六届自动化控制、算法与智能仿生国际学术会议.

2026 年第三届计算,机器学习与数据科学国.

第十三届先进制造技术与材料工程国际学术会议 .

第二届人工智能与产品设计国际学术会议 (AI.

2026年量子计算与人工智能国际学术会议(I.

2026年第六届计算机视觉与模式分析国际学术.

第七届机械仪表与自动化国际学术会议(ICMI.

2026年第四届亚洲机器学习、算法与神经网络.

2026年第四届亚洲计算机视觉、图像处理与模.

2026年人工智能与数据挖掘国际学术会议(A.

2026年IEEE第七届计算,网络与物联网国.

2026年第五届网络、通信与信息技术国际会议.

2026年智能机器人与控制技术国际会议(CI.

2026年智能系统与计算国际会议 (ICIS.

2026年电子, 通信与计算机科学国际会议 .

2026年IEEE第三届先进机器人, 自动化.