清华大学自动化系汪小我团队合作提出自动归纳基因调控序列编码模式的神经网络解释方法_科研信息_学术资讯

当前位置：首页 >> 学术资讯 >> 科研信息

2026年传感器技术、自动化与智能制造国际会议（STAIM 2026）

第十一届材料科学与工程国际学术会议(ISAMSE 2026）

第二届导航、检测与控制国际学术会议（CNDC 2026)

第三届图像处理、多媒体技术与机器学习国际学术会议（IPMML 2026）

2026年智能医学与图像计算国际会议 (IMIC 2026)

第三届虚拟现实、图像和信号处理国际学术会议（VRISP 2026）

2026年具身智能、机器人与控制系统国际学术会议（EIRCS 2026）

第五届信息经济、数据建模与云计算国际学术会议（ICIDC 2026）

第三届数字媒体、通信与信息系统国际学术会议（DMCIS 2026）

2026年智能机器人与控制技术国际会议（CIRCT 2026）

第五届机械电子工程与人工智能国际学术会议（MEAI 2026）

第六届先进制造技术与电子信息国际学术会议（AMTEI 2026）

第十一届计算机与信息处理技术国际学术研讨会（ISCIPT 2026）

第三届大数据、神经网络与深度学习研讨会（BDNNDL 2026）

第六届计算机视觉、应用与算法国际学术会议（CVAA 2026）

2026年IEEE计算机通信、信息系统与网络安全国际会议(CCISC 2026)

2026年第五届算法、数据挖掘和信息技术国际会议(ADMIT 2026)

2026年人工智能与机器人系统国际会议(ICAIRS 2026)

2026年IEEE人工智能、大数据与云计算国际会议 (AIBDCC 2026)

2026年IEEE第二届电力与可持续能源技术国际会议(PSETC 2026)

清华大学自动化系汪小我团队合作提出自动归纳基因调控序列编码模式的神经网络解释方法

2024/04/12

近年来，大数据驱动的深度神经网络模型已在多个领域取得了重要进展。例如，在蛋白质结构和基因调控功能预测等方面，已经能够实现高精度的预测。然而，这些模型通常是不透明的黑盒，难以理解。透明化神经网络黑盒可以帮助我们获取模型从数据中学习到的知识，从“只知其然”转变为“知其所以然”，对于促进神经网络理论发展和增进相关领域的认知具有重要意义。在基因调控功能的研究中，基因调控序列是能够调控基因表达的DNA序列，细胞中的各种蛋白质调控因子通过读取基因调控序列编码信息并执行相应指令实现基因表达水平的精准控制，从而决定了细胞的功能和状态。利用深度神经网络破译这些DNA编码的语法规则能够促进对基因调控规律的理解，指导基因调控元件的定制化设计。

近日，清华大学自动化系汪小我团队与美国斯坦福大学统计系王永雄团队合作提出自动归纳基因调控序列编码模式的神经网络解释方法。该方法针对广泛应用于基因调控序列研究的卷积神经网络（CNN）模型，通过剖析神经网络中的多面神经元机制（multifaceted neuron），开发了神经网络解释算法（NeuronMotif），实现了从神经元中自动归纳和提取转录因子结合位点等关键序列模式（Motif）及其组合、次序、间距等基因调控序列编码规则。该方法能够帮助研究者更加深入地理解基因调控编码规律，同时为神经网络模型的解释提供了新手段。

多面神经元机制和NeuronMotif归纳基因调控序列编码模式

该研究发现，CNN解释困难的一个主要原因在于深层神经元大多都是“多面神经元”（multifaceted neuron）。这种神经元能够同时被多种不同序列模式激活，直接对这些混合模式进行可视化往往只能获得难以被人理解的结果。通过深入分析，该研究发现CNN中的最大池化结构是导致深层神经元识别多种序列模式的关键原因。具有不同模式的序列特征在被输入到神经网络以后，会逐层计算得到每一层网络对应的特征图（feature map），这些特征图在通过最大池化层后会丢失单碱基精度空间分辨率，导致输出的特征图变得高度相似，难以对这些混合模式进行解耦。

针对多面神经元问题及其形成机制，研究团队提出了Neuron Motif方法，该方法首先基于蒙特卡洛采样和遗传算法得到大量能充分激活神经元的序列集合，然后计算这些序列在神经网络各层的特征图，并通过反向逐层聚类的方式分离不同序列模式所对应的特征图，将具有不同模式的序列划分到不同的子集中，最终通过对每个子集的可视化获得易于理解的序列模式特征。在此基础上，该方法构建了基于结构化语法树的自动化知识提取方法，从数据中自动归纳转录因子结合位点序列模式、组合模式、间距、次序等调控序列语法规则。

NeuronMotif归纳提取的调控序列语法规则能够得到文献和多种生物组学数据的支撑和验证。通过对人类基因组数据的学习，NeuronMotif发现了数百种序列模式，与JASPAR数据库中的已知转录因子motif序列模式高度匹配；通过NeuronMotif获取的深层神经元语法规则与多种细胞/组织中的ATAC-seqfootprinting模式高度匹配，并得到了基因表达数据（RNA-seq）的支持；序列模式的组合和排布等规律在跨物种基因组序列上具有显著的序列保守性。

综上所述，NeuronMotif为我们提供了一种解读深度神经网络模型中深层神经元识别模式的新方法。此外，NeuronMotif的解释结果还可用于人工神经网络的诊断和改进，帮助降低神经网络调参的困难。借助该方法，我们可以通过神经网络的训练和解释，从数据中获取可供人类专家理解的知识，帮助我们更加深入地理解胚胎发育、疾病发生等生物过程中的基因调控规律，并为基因治疗等应用中定制化逆向构造人工基因调控序列提供支撑。

研究成果以“NeuronMotif: 通过深度神经网络的逐层解耦破译基因顺式调控编码”（NeuronMotif: Deciphering cis-regulatory codes by layer-wise demixing of deep neural networks）为题发表在《美国科学院院刊》（PNAS）上。

清华大学自动化系博士后魏征为本文的第一作者，清华大学自动化系汪小我教授和美国斯坦福大学统计系王永雄教授为本文的共同通讯作者。清华大学李衍达教授、张学工教授、江瑞教授、魏磊助理研究员、花奎博士，斯坦福大学博士后马士宁也对本文作出了重要贡献。该研究得到了国家自然科学基金、国家重点研发计划、清华大学国强研究院、北京智源人工智能研究院等的资助。

版权声明：
文章来源清华大学新闻，分享只为学术交流，如涉及侵权问题请联系我们，我们将及时修改或删除。

相关学术资讯

清华大学多项成果获得2024年度中国电子学会科学技术奖

我国学者在高密度介电储能领域取得进展

氟化硼酸盐深紫外非线性光学晶体研究取得进展

物理学院杨军课题组与合作者揭示极热气候下的平均降水不增反降

北京大学生命科学学院王伟课题组及合作者报道酚酸类化感物质通过促进相变抑制翻译从而调控物种间竞争的新机制

我国学者在老药新用及其作用机制研究方面取得进展

工学院王龙课题组在Nature Computational Science上发表高阶网络化系统博弈动力学研究的最新成果

西北农林科技大学（818）生命学院韦革宏教授团队李哲斐教授揭示了高细菌群落多样性可通过增强根际营养竞争

清华大学深圳国际研究生院殷振元团队合作揭示我国南海第二次试采区块沉积物对甲烷水合物的动力学作用机制

近期会议