科研人员开发出可解释AI模型精准鉴定细胞谱系特征基因
2026/05/29
细胞类型的精准识别是单细胞转录组学分析的基础,而发现细胞类型特异性的标记基因是实现这一目标的关键。传统方法多依赖统计阈值或聚类启发式策略,易受数据噪声、注释偏差及基因高表达但非特异性等问题的干扰。
近日,中国科学院广州生物医药与健康研究院科研团队基于可解释神经网络框架,提出了scMarkerGene模型。该模型通过构建“贡献分数矩阵”,将神经网络模型中每个基因对细胞类型判别的影响量化为可解释的贡献值,并结合集成学习与特异性过滤策略,实现了对不同物种、不同测序技术、不同细胞群体规模及高稀疏性数据的稳健标记基因识别。
scMarkerGene的工作流程主要包括两个步骤。第一步是贡献分数计算。基于多层感知机构建分类模型,通过集成多个超参数扰动训练得到的模型,利用DeepLIFT解释方法计算每个基因对细胞类型判别的贡献分数,并经过统计检验筛选出候选标记基因。第二步是特异性筛选与重排序。在候选基因基础上,结合基因的均值表达、中位数表达及检出率,构建“marker评分”,并与轮廓系数加权后对基因进行重排序,最终输出高特异性的细胞类型标记基因。
研究团队在10个公开的单细胞RNA测序数据集上对scMarkerGene进行了系统评估,涵盖拟南芥、果蝇、小鼠、人类等多个物种及多种测序平台。结果表明,这一模型在log2FC、标准化Z-score等指标上均优于scanpy、scMAGs、SMaSH、scVI等现有方法。在模拟数据实验中,scMarkerGene识别高特异性标记基因,明显领先其他方法,并可有效滤除非特异性基因。在引入不同比例的随机丢失噪声后,scMarkerGene依然保持高鲁棒性,而同类方法SMaSH的性能则明显下降。在骨类器官数据集中,scMarkerGene在粗粒度与细粒度细胞类型上均能稳定识别高特异性标记基因,尤其在样本量不足100个细胞的小群体中仍保持最高log2FC,展现出对罕见细胞群体的强大适应性。
团队进一步在空间转录组与拟时间序列分析中发现,scMarkerGene识别出的标记基因在10X Visium小鼠脑组织及人黑色素瘤数据中均展现出清晰的空间定位特征;在BEELINE基准数据中,其在不同离散时间状态下预测的标记基因也均取得较高的log2FC值。
scMarkerGene区别传统方法依赖表达均值差异检验的方式,以判别函数为核心,以贡献分数为统一度量,建立起基因贡献分数与分类决策边界敏感度之间的数学联系,推动标记基因筛选从“统计描述”走向“机制解析”,为从复杂单细胞数据中解析细胞身份提供了可靠方法。
相关研究成果发表在Briefings in Bioinformatics上。研究工作得到国家重点研发计划等的支持。
scMarkerGene工作流程
文章来源广州生物医药与健康研究院,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年6月优质国际学术会议推荐 430
-
2026年智慧教育与数据挖掘国际学术 199
-
2026年第17届机械与航空航天工程 421
-
2026资源、化学化工与应用材料国际 2009
-
2026年图像处理与数字创意设计国际 1818
-
2026年机械工程,新能源与电气技术 6286
-
2026年材料科学、低碳技术与动力工 1986
-
2026年地质灾害、遥感技术与智能预 05-27
-
2026年机器人技术、控制与工业自动 05-27
-
2026年虚拟现实、人机交互与仿真模 05-27
-
2026年农业传感器、精准灌溉与智慧 05-27
-
2026年经济发展、产业升级与教育培 05-27
-
2026年算法,模式识别与深度学习国 05-27
-
2026年图像处理,计算机视觉与多媒 05-27
-
2026年大数据,电子信息工程与智慧 05-27
-
中国科协发布2025年《重要学术208
-
2026年新锐分区(原中科院期刊3653
-
2025年两院院士增选有效候选人4617
-
2025最新JCR分区及影响因子13107
-
好学术:科研网址导航|学术头条分6061
-
2025年国际期刊预警名单发布!6242
-
2025年中科院期刊分区表重磅发22747
-
吉林大学校长张希:学术会议中的提7318
-
西安交大人文学院妥建清教授在《中05-23
-
中国科大实现液晶中涡旋线向拓扑孤05-23
-
新型多功能水性环氧防腐涂层研究取05-23
-
研究揭示树种多样性抑制土壤激发效05-23
-
铍-9离子精密测量研究取得进展05-23
-
氨分解制绿氢催化剂研究获进展05-23
-
南京大学物理学院彭茹雯和王牧研究05-23
-
中国林业科学研究院热带林业研究所 23386

-
个人 8441

-
中文中文中文 18474

-
中国生态学学会专业委 18363

-
济南大学 21491

-
中国食品医药产业研究院 8228

-
上海聚亿展览服务有限公司 23345

-
WILL 24340

-
中国农业发展研究协会 2557

-
徐州工程学院 8527

-
重庆文理学院 18328

-
2014材料科学与环境国际会议 2414

-
广州市金晔展览有限公司 8339

-
IET工程技术咨询(北京)有限公 18295

-
鼎盛至诚会议 21281

-
塔里木大学 23338

-
北京海基科技发展有限公司 21196

-
长安大学 2499

-
食品科学与工程国际会议会务组 2362

-
西安市西安交通大学理学院 物理教 21305




















11






































