当前位置:首页 >> 学术资讯 >> 科研信息

科研人员开发出可解释AI模型精准鉴定细胞谱系特征基因

2026/05/29

文章导读
还在为单细胞测序数据里那些“高表达却不特异”的标记基因头疼?传统方法依赖统计阈值,总被噪声和注释偏差戏弄——你筛选出的“特征基因”可能只是假阳性。中科院团队基于可解释AI框架,搞出了一个叫scMarkerGene的模型,用“贡献分数矩阵”直接把神经网络的黑箱拆成白盒。它在拟南芥到人的跨物种数据上表现碾压现有工具,连100个细胞以内的罕见群体都能精准锁定。但真正颠覆认知的是:它让标记基因筛选从“统计猜谜”走向“机制可解释”。这个转变意味着什么?
— 内容由好学术AI分析文章内容生成,仅供参考。

细胞类型的精准识别是单细胞转录组学分析的基础,而发现细胞类型特异性的标记基因是实现这一目标的关键。传统方法多依赖统计阈值或聚类启发式策略,易受数据噪声、注释偏差及基因高表达但非特异性等问题的干扰。

近日,中国科学院广州生物医药与健康研究院科研团队基于可解释神经网络框架,提出了scMarkerGene模型。该模型通过构建“贡献分数矩阵”,将神经网络模型中每个基因对细胞类型判别的影响量化为可解释的贡献值,并结合集成学习与特异性过滤策略,实现了对不同物种、不同测序技术、不同细胞群体规模及高稀疏性数据的稳健标记基因识别。

scMarkerGene的工作流程主要包括两个步骤。第一步是贡献分数计算。基于多层感知机构建分类模型,通过集成多个超参数扰动训练得到的模型,利用DeepLIFT解释方法计算每个基因对细胞类型判别的贡献分数,并经过统计检验筛选出候选标记基因。第二步是特异性筛选与重排序。在候选基因基础上,结合基因的均值表达、中位数表达及检出率,构建“marker评分”,并与轮廓系数加权后对基因进行重排序,最终输出高特异性的细胞类型标记基因。

研究团队在10个公开的单细胞RNA测序数据集上对scMarkerGene进行了系统评估,涵盖拟南芥、果蝇、小鼠、人类等多个物种及多种测序平台。结果表明,这一模型在log2FC、标准化Z-score等指标上均优于scanpy、scMAGs、SMaSH、scVI等现有方法。在模拟数据实验中,scMarkerGene识别高特异性标记基因,明显领先其他方法,并可有效滤除非特异性基因。在引入不同比例的随机丢失噪声后,scMarkerGene依然保持高鲁棒性,而同类方法SMaSH的性能则明显下降。在骨类器官数据集中,scMarkerGene在粗粒度与细粒度细胞类型上均能稳定识别高特异性标记基因,尤其在样本量不足100个细胞的小群体中仍保持最高log2FC,展现出对罕见细胞群体的强大适应性。

团队进一步在空间转录组与拟时间序列分析中发现,scMarkerGene识别出的标记基因在10X Visium小鼠脑组织及人黑色素瘤数据中均展现出清晰的空间定位特征;在BEELINE基准数据中,其在不同离散时间状态下预测的标记基因也均取得较高的log2FC值。

scMarkerGene区别传统方法依赖表达均值差异检验的方式,以判别函数为核心,以贡献分数为统一度量,建立起基因贡献分数与分类决策边界敏感度之间的数学联系,推动标记基因筛选从“统计描述”走向“机制解析”,为从复杂单细胞数据中解析细胞身份提供了可靠方法。

相关研究成果发表在Briefings in Bioinformatics上。研究工作得到国家重点研发计划等的支持。

论文链接

科研人员开发出可解释AI模型精准鉴定细胞谱系特征基因

scMarkerGene工作流程


版权声明:
文章来源广州生物医药与健康研究院,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议
小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。