自动化系生命基础模型实验室合作发表人工智能细胞大模型
2024/06/17
近年来,人工智能领域在大模型方面取得了显著进展,这些模型通过预训练的方式从大规模、多来源的数据中提取深层次规律,进而能够作为“基础模型”服务领域的多样化任务。例如,语言大模型通过学习大量文本数据,掌握了理解和识别语言的能力,引领了自然语言处理领域的新一轮革命。类似地,生命科学中的细胞的DNA序列、基因表达等属性也可以被视为一种细胞“语言”,如果能够基于这种细胞“语言”开发人工智能细胞大模型,将有望为生命科学和医学研究提供全新研究范式和革命性研究工具。
清华大学自动化系生命基础模型实验室主任张学工教授、电子系/AIR马剑竹教授和百图生科宋乐博士合作,建立了一个名为scFoundation的细胞大模型。该模型基于5000万个细胞的基因表达数据进行训练,拥有1亿参数,能够同时处理约20000个基因。作为基础模型,它在“虚拟药物试验”等多种生物医学下游任务中表现出卓越的性能提升,提供了人工智能在单细胞研究中的新范式(图1)。研究成果于2023年5月完成,2024年6月6日以“单细胞转录组大规模基础模型”(Large-scale foundation model on single-cell transcriptomics)为题,发表于《自然·方法》(Nature Methods)上。

图1.scFoundation模型及下游应用场景
细胞“语言”与自然语言不同,存在着特征高维度、取值连续且稀疏等难点。为此,研究团队针对性设计模型架构,使scFoundation的值编码模块可直接将连续的基因表达值转化为向量,并通过设计一个基于Transformer的非对称模型架构,在保持参数规模不变的同时幅提高了计算效率。此外,考虑到单细胞数据质量存在明显差异的特点,研究团队还设计了一种由低质量数据恢复高质量数据的预训练任务,进一步增强了预训练模型对不同来源下游数据的适应能力。
在实际应用中,scFoundation模型支持“开箱即用”和“微调”两种模式。在“开箱即用”模式下,得益于其独特的预训练任务,该模型能直接用于提升细胞数据的质量,在不需要进一步调整的情况下便可达到或超越现有方法的效果。此外,用户可以利用scFoundation提取细胞的预训练表征,该表征可以用于识别细胞类型特异基因模块和转录因子,并可广泛应用于“虚拟药物试验”等下游任务中。实验测试结果表明,利用scFoundation模型可以显著提升细胞癌症药物反应、细胞扰动实验等任务的性能。在“微调”模式下,scFoundation在细胞类型标注等任务上的表现远超传统方法。研究团队通过多项实验分析了模型中不同模块设计对性能的具体影响,相关模型细节已在NeurIPS2024的xTrimoGene模型文章中发表。目前模型权重及代码已开源,同时也提供了模型API供在线轻量使用。
综上所述,scFoundation模型为生命科学基础研究、细胞扰动响应预测、药物靶点发现等领域提供了创新方法工具,并在模型架构、训练框架和下游示范应用体系等方面为细胞大模型研究提供了新的思路和方法,成功地拓展了单细胞领域基础模型的边界,为开展数基空间中的虚拟药物实验等未来研究奠定了基础。
张学工、马剑竹、宋乐为论文通讯作者。清华大学自动化系2021级博士生郝敏升为论文第一作者。
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026资源、化学化工与应用材料国际 218
-
2026年智能制造与光学传感技术国际 235
-
2026年2月高录用率国际学术会议列 37
-
2026年第六届土木工程与建筑国际会 841
-
2026年图像处理与数字创意设计国际 90
-
2026年机械工程,新能源与电气技术 4589
-
2026年材料科学、低碳技术与动力工 307
-
2026年第二届无线与光通信国际会议 1149
-
2026 9th Internati 01-15
-
2026年土木工程智能建造与基础设施 01-15
-
2026年环境工程、生态修复与可持续 01-15
-
2026年数字健康、远程医疗与智能诊 01-15
-
2026年金融科技、智能风控与数字资 01-15
-
2026年智慧农业、食品工程与供应链 01-15
-
2026年计算建模、数学与大数据国际 01-15
-
2025年两院院士增选有效候选人2854
-
2025最新JCR分区及影响因子7970
-
好学术:科研网址导航|学术头条分3741
-
2025年国际期刊预警名单发布!3763
-
2025年中科院期刊分区表重磅发13927
-
中国科协《重要学术会议目录(208283
-
吉林大学校长张希:学术会议中的提4800
-
清华大学物理系徐勇、段文晖研究组12-25
-
清华大学-上汽通用五菱汽车人工智12-25
-
参加学术会议学术蝗虫_参加学术会12-25
-
参加学术会议图片_参加学术会议需12-25
-
参加学术会议投稿邮件_参加学术会12-25
-
参加学术会议文学_参加学术会议有12-25
-
参加学术会议文案_参加学术会议文12-25
-
参加学术会议违法_参加学术会议违12-25
-
北京电源行业协会 23545

-
中商联数据委员会 21276

-
上海大学 23247

-
第九届全国结构计算理论与工程应用 2174

-
首都医科大学 21432

-
丝绸之路国际和平智库 8322

-
中国电子商会信息工程测试专委会 2944

-
中科国鼎数据科学研究院 8215

-
山东大学 18214

-
中国医院药学杂志编辑部 23190

-
国际工学技术出版协会 24457

-
广州恒斌展览有限公司 2092

-
亚太科学与工程研究所 23255

-
北京石油化工学院 2334

-
沈阳博思教育 24169

-
中国能源学会 21219

-
江苏省岩土力学与工程学会 18570

-
武汉mst主办方 18249

-
深圳市生物医药促进会 2327

-
百奥泰国际会议(大连)有限公司 24328

















591












































