- 《中国抗生素杂志》期刊有关内容 46
- 北京大学物理学院在拓扑保护量子纠 51
- 标准文献的作用及特点有哪些 65
- 【喜讯】重医附属检验科2位人员在 78
- 中国科学院大连化学物理研究所在二 68
- 有科技论文检索证明的文章应该包括 61
- 北京大学材料学院郭少军课题组在P 85
- 中国科学院物理研究所与海外合作者 51
- 浅析专著在国外出版社出版的语言 60
- 浙江大学孟卓贤研究员团队和国防科 45
- 北京大学生命科学学院王伟课题组及 64
- 机械工程SCI期刊涵盖了哪些不同 51
- 如何描述论文预期成果 42
- 一个发明专利可以有多个发明人吗? 34
- 写科研论文经历的多个阶段和需注意 59
- 湖北省武汉大学 17396
- 北京小猬信息科技有限公司 20396
- 浙江工业大学 17412
- BVDZ 7397
- 中国高科技产业化研究会 20438
- 中国化工学会培训中心 17416
- 上海卡沃文化传媒有限公司 23386
- 百奥泰国际会议(大连)有限公司 22387
- 生物谷 20413
- 郑州君健教育咨询有限公司 22399
- 中科博爱(北京)咨询有限公司 1383
- 上海荣格展览有限公司 20423
- 中国地质科学院地质研究所 22378
- 中国建设科学院 23403
- 湖北学而升文化传播有限公司 7403
- WW 7391
- 上海来溪会务服务有限公司 22399
- 重庆交通大学管理学院 20421
- 世安居不动产 17408
- 百奥泰国际会议中心(大连)有限公 1391
清华大学自动化系汪小我团队合作提出自动归纳基因调控序列编码模式的神经网络解释方法
2024/04/12
近年来,大数据驱动的深度神经网络模型已在多个领域取得了重要进展。例如,在蛋白质结构和基因调控功能预测等方面,已经能够实现高精度的预测。然而,这些模型通常是不透明的黑盒,难以理解。透明化神经网络黑盒可以帮助我们获取模型从数据中学习到的知识,从“只知其然”转变为“知其所以然”,对于促进神经网络理论发展和增进相关领域的认知具有重要意义。在基因调控功能的研究中,基因调控序列是能够调控基因表达的DNA序列,细胞中的各种蛋白质调控因子通过读取基因调控序列编码信息并执行相应指令实现基因表达水平的精准控制,从而决定了细胞的功能和状态。利用深度神经网络破译这些DNA编码的语法规则能够促进对基因调控规律的理解,指导基因调控元件的定制化设计。
近日,清华大学自动化系汪小我团队与美国斯坦福大学统计系王永雄团队合作提出自动归纳基因调控序列编码模式的神经网络解释方法。该方法针对广泛应用于基因调控序列研究的卷积神经网络(CNN)模型,通过剖析神经网络中的多面神经元机制(multifaceted neuron),开发了神经网络解释算法(NeuronMotif),实现了从神经元中自动归纳和提取转录因子结合位点等关键序列模式(Motif)及其组合、次序、间距等基因调控序列编码规则。该方法能够帮助研究者更加深入地理解基因调控编码规律,同时为神经网络模型的解释提供了新手段。
多面神经元机制和NeuronMotif归纳基因调控序列编码模式
该研究发现,CNN解释困难的一个主要原因在于深层神经元大多都是“多面神经元”(multifaceted neuron)。这种神经元能够同时被多种不同序列模式激活,直接对这些混合模式进行可视化往往只能获得难以被人理解的结果。通过深入分析,该研究发现CNN中的最大池化结构是导致深层神经元识别多种序列模式的关键原因。具有不同模式的序列特征在被输入到神经网络以后,会逐层计算得到每一层网络对应的特征图(feature map),这些特征图在通过最大池化层后会丢失单碱基精度空间分辨率,导致输出的特征图变得高度相似,难以对这些混合模式进行解耦。
针对多面神经元问题及其形成机制,研究团队提出了Neuron Motif方法,该方法首先基于蒙特卡洛采样和遗传算法得到大量能充分激活神经元的序列集合,然后计算这些序列在神经网络各层的特征图,并通过反向逐层聚类的方式分离不同序列模式所对应的特征图,将具有不同模式的序列划分到不同的子集中,最终通过对每个子集的可视化获得易于理解的序列模式特征。在此基础上,该方法构建了基于结构化语法树的自动化知识提取方法,从数据中自动归纳转录因子结合位点序列模式、组合模式、间距、次序等调控序列语法规则。
NeuronMotif归纳提取的调控序列语法规则能够得到文献和多种生物组学数据的支撑和验证。通过对人类基因组数据的学习,NeuronMotif发现了数百种序列模式,与JASPAR数据库中的已知转录因子motif序列模式高度匹配;通过NeuronMotif获取的深层神经元语法规则与多种细胞/组织中的ATAC-seqfootprinting模式高度匹配,并得到了基因表达数据(RNA-seq)的支持;序列模式的组合和排布等规律在跨物种基因组序列上具有显著的序列保守性。
综上所述,NeuronMotif为我们提供了一种解读深度神经网络模型中深层神经元识别模式的新方法。此外,NeuronMotif的解释结果还可用于人工神经网络的诊断和改进,帮助降低神经网络调参的困难。借助该方法,我们可以通过神经网络的训练和解释,从数据中获取可供人类专家理解的知识,帮助我们更加深入地理解胚胎发育、疾病发生等生物过程中的基因调控规律,并为基因治疗等应用中定制化逆向构造人工基因调控序列提供支撑。
研究成果以“NeuronMotif: 通过深度神经网络的逐层解耦破译基因顺式调控编码”(NeuronMotif: Deciphering cis-regulatory codes by layer-wise demixing of deep neural networks)为题发表在《美国科学院院刊》(PNAS)上。
清华大学自动化系博士后魏征为本文的第一作者,清华大学自动化系汪小我教授和美国斯坦福大学统计系王永雄教授为本文的共同通讯作者。清华大学李衍达教授、张学工教授、江瑞教授、魏磊助理研究员、花奎博士,斯坦福大学博士后马士宁也对本文作出了重要贡献。该研究得到了国家自然科学基金、国家重点研发计划、清华大学国强研究院、北京智源人工智能研究院等的资助。
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
北京大学生命科学学院高宁/李宁宁团队揭示血红细胞Spectrin-Actin膜骨架系统的组织规则及结构稳定性的分子基础
浙江大学与海外合作者在糖基化修饰调控YTHDF蛋白生物学功能领域取得进展
城环学院王学军课题组与合作者在Nature Geoscience发文指出河流入海是全球近海海洋长期被低估的重要汞来源
中科院上海微系统与信息技术研究所狄增峰团队与合作者在晶圆级范德华接触阵列研究方面取得进展
第四届计算机图形学、图像与虚拟化研究国际会议(ICCGIV 2024)(2024-05-17)
第九届机电控制技术与交通运输国际学术会议(ICECTT 2024)(2024-05-24)
2024年教育政策与实践研讨会(ICEPP 2024)(2024-05-24)
第三届机电一体化与机械工程国际会议(ICMME2024)(2024-05-24)
2024年电子器件、传感控制技术与光学机械工程国际学术会议(EDSCTOE 2024)(2024-05-25)
第十四届地质和地球物理学国际会议(ICGG 2024)(2024-05-31)
2024年食品工程与农业科学国际会议(ICFEAS 2024)(2024-06-02)
2024年第三届网络、通信与信息技术国际会议(CNCIT 2024)(2024-06-07)
第十届机械工程、材料和自动化技术国际会议(MMEAT 2024)(2024-06-21)
2024年先进机器人,自动化工程与机器学习国际会议(ARAEML 2024)(2024-06-28)
2024艺术鉴赏、语言科学与文化传播国际会议(ALSCC 2024)(2024-5-29)
2024年环境科学与土木工程制造国际会议(ICESCEM 2024)(2024-6-30)
2024历史、心理学与哲学国际会议(ICHPP 2024)(2024-5-27)
2024年第三届人工智能与软件工程国际会议 (ICAISE 2024)(2024-10-25)
2024年第七届知识管理系统国际会议(ICKMS 2024)(2024-6-24)
2024年低碳技术与清洁能源国际学术会议(LCTCE 2024)(2024-6-29)
2024文化产业发展、科学教育与设计鉴赏国际会议(ICDSEDA 2024)(2024-6-23)
2024公共艺术、设计与人文发展国际会议(PADH 2024)(2024-5-22)
2024年企业管理与对外贸易国际学术会议(ICEMFT 2024)(2024-6-25)
2024年旅游与文化传播国际会议 (ICTCC 2024)(2024-5-22)