科研人员开发出可解释AI模型精准鉴定细胞谱系特征基因_科研信息_学术资讯

当前位置：首页 >> 学术资讯 >> 科研信息

第六届先进制造技术与电子信息国际学术会议.（AMTEI 2026）

2026年智能医学与图像计算国际会议 (IMIC 2026)

第六届电气工程与计算机技术国际学术会议（IC2ECT 2026）

第三届大数据、神经网络与深度学习研讨会（BDNNDL 2026）

2026年智能机器人与控制技术国际会议（CIRCT 2026）

第五届机械电子工程与人工智能国际学术会议（MEAI 2026）

2026年传感器技术、自动化与智能制造国际会议（STAIM 2026）

第七届城市工程与管理科学国际会议（ICUEMS 2026）

2026年电子工程、通信与计算机技术学术会议（EECCT 2026）

第五届公共管理、数字经济与互联网技术国际学术会议（ICPDI 2026）

第六届计算机视觉、应用与算法国际学术会议（CVAA 2026）

2026年IEEE计算机通信、信息系统与网络安全国际会议(CCISC 2026)

第三届岩土力学与水工结构国际学术会议（GHS 2026）

第八届能源、电力与电网国际学术会议（ICEPG 2026）

2026年第五届算法、数据挖掘和信息技术国际会议(ADMIT 2026)

2026年人工智能与机器人系统国际会议(ICAIRS 2026)

第四届人工智能与自动化控制国际学术会议（AIAC 2026）

2026年IEEE人工智能、大数据与云计算国际会议 (AIBDCC 2026)

第八届信息与计算机前沿技术国际学术会议（ICFTIC 2026）

2026年IEEE第二届电力与可持续能源技术国际会议(PSETC 2026)

科研人员开发出可解释AI模型精准鉴定细胞谱系特征基因

2026/05/29

文章导读

还在为单细胞测序数据里那些“高表达却不特异”的标记基因头疼？传统方法依赖统计阈值，总被噪声和注释偏差戏弄——你筛选出的“特征基因”可能只是假阳性。中科院团队基于可解释AI框架，搞出了一个叫scMarkerGene的模型，用“贡献分数矩阵”直接把神经网络的黑箱拆成白盒。它在拟南芥到人的跨物种数据上表现碾压现有工具，连100个细胞以内的罕见群体都能精准锁定。但真正颠覆认知的是：它让标记基因筛选从“统计猜谜”走向“机制可解释”。这个转变意味着什么？

— 内容由好学术AI分析文章内容生成，仅供参考。

细胞类型的精准识别是单细胞转录组学分析的基础，而发现细胞类型特异性的标记基因是实现这一目标的关键。传统方法多依赖统计阈值或聚类启发式策略，易受数据噪声、注释偏差及基因高表达但非特异性等问题的干扰。

近日，中国科学院广州生物医药与健康研究院科研团队基于可解释神经网络框架，提出了scMarkerGene模型。该模型通过构建“贡献分数矩阵”，将神经网络模型中每个基因对细胞类型判别的影响量化为可解释的贡献值，并结合集成学习与特异性过滤策略，实现了对不同物种、不同测序技术、不同细胞群体规模及高稀疏性数据的稳健标记基因识别。

scMarkerGene的工作流程主要包括两个步骤。第一步是贡献分数计算。基于多层感知机构建分类模型，通过集成多个超参数扰动训练得到的模型，利用DeepLIFT解释方法计算每个基因对细胞类型判别的贡献分数，并经过统计检验筛选出候选标记基因。第二步是特异性筛选与重排序。在候选基因基础上，结合基因的均值表达、中位数表达及检出率，构建“marker评分”，并与轮廓系数加权后对基因进行重排序，最终输出高特异性的细胞类型标记基因。

研究团队在10个公开的单细胞RNA测序数据集上对scMarkerGene进行了系统评估，涵盖拟南芥、果蝇、小鼠、人类等多个物种及多种测序平台。结果表明，这一模型在log2FC、标准化Z-score等指标上均优于scanpy、scMAGs、SMaSH、scVI等现有方法。在模拟数据实验中，scMarkerGene识别高特异性标记基因，明显领先其他方法，并可有效滤除非特异性基因。在引入不同比例的随机丢失噪声后，scMarkerGene依然保持高鲁棒性，而同类方法SMaSH的性能则明显下降。在骨类器官数据集中，scMarkerGene在粗粒度与细粒度细胞类型上均能稳定识别高特异性标记基因，尤其在样本量不足100个细胞的小群体中仍保持最高log2FC，展现出对罕见细胞群体的强大适应性。

团队进一步在空间转录组与拟时间序列分析中发现，scMarkerGene识别出的标记基因在10X Visium小鼠脑组织及人黑色素瘤数据中均展现出清晰的空间定位特征；在BEELINE基准数据中，其在不同离散时间状态下预测的标记基因也均取得较高的log2FC值。

scMarkerGene区别传统方法依赖表达均值差异检验的方式，以判别函数为核心，以贡献分数为统一度量，建立起基因贡献分数与分类决策边界敏感度之间的数学联系，推动标记基因筛选从“统计描述”走向“机制解析”，为从复杂单细胞数据中解析细胞身份提供了可靠方法。

相关研究成果发表在Briefings in Bioinformatics上。研究工作得到国家重点研发计划等的支持。

论文链接