北京大学-清华大学生命科学联合中心来鲁华课题组及其合作者研究出多层级的图神经网络推动蛋白质功能预测的发展
2024/03/29
高通量测序的进展推动了蛋白质序列数量的快速增长。尽管如此,由于实验研究需要较长的周期并且费用昂贵,大部分蛋白质序列缺乏功能注释。因此,具备自动而准确推断蛋白质功能的计算方法变得至关重要。
深度学习的进展推动了各种蛋白质功能预测模型的发展。蛋白质的三维结构与功能密切相关,然而,结构相似的蛋白质可能具有高度多样的序列。仅仰赖基于序列的模型(如1D CNN或Transformer)可能难以捕捉到长程的功能位点规律。随着蛋白质结构预测研究的突破性进展,获取蛋白质接触图或三维结构的方法变得更加容易。这为图神经网络(GNN)提供了更多优势,它可以编码蛋白质的三维结构信息以预测其功能。然而,目前的GNN模型仍然面临过度平滑的问题,而且简单的池化方法难以准确突显重要的残基节点贡献。
北京大学化学与分子工程学院、定量生物学中心、北京大学-清华大学生命科学联合中心来鲁华课题组与北京大学数学科学学院、定量生物学中心邓明华课题组合作发展了一种新的蛋白质功能预测模型:HEAL(Hierarchical graph transformEr with contrAstive Learning)。HEAL利用Hierarchical Graph Transformer(HGT)来学习蛋白质的结构信息。该方法通过引入模仿功能motif的超节点,与蛋白质图中的残基节点进行交互,并通过池化操作生成蛋白质图的嵌入表示。为了增强网络的表达能力,HEAL还引入了图对比学习,以最大化不同视图之间的相似性。此外,HEAL模型还利用AlphaFold2预测蛋白质结构的功能信息,以提升在实际应用场景中的性能表现。

HEAL模型对蛋白质的建图方式及网络架构
HEAL模型在被广泛使用的PDBch测试集上展现出了卓越的性能,不仅超越了传统的基于序列比对的方法(Blast和FunFams),还超越了基于序列特征的1D CNN深度学习模型DeepGO和基于结构特征的GNN模型DeepFRI。为了测试模型在缺乏实验解析结构与已标注同源序列的更真实场景下的应用,研究者构建了更具挑战性的AFch测试集,并将HEAL模型与前述的DeepFRI、以及结合同源序列比对和1D CNN序列模型的DeepGOPlus进行了比较。研究结果表明,在这个更具挑战性的应用场景下,HEAL模型显示出了更大的潜力和优势。
相关工作近日发表在Bioinformatics上,北京大学北大-清华生命科学联合中心博士研究生顾仲晖与北京大学数学科学学院罗霄博士为共同第一作者。北京大学定量生物学中心的博士研究生陈佳晓对于该工作的完成做出了重要贡献。文章的通讯作者为北京大学化学与分子工程学院、定量生物学中心、北京大学-清华大学生命科学联合中心来鲁华教授和北京大学数学科学学院、定量生物学中心邓明华教授。该研究得到了国家重点研发计划、国家自然科学基金、中国医学科学院创新单元、北京分子科学国家研究中心和北大-清华生命科学联合中心的资助。
文章来源北京大学新闻网,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年第五届机器学习、云计算与智 26
-
2026年第二届计算机视觉与机器学习 627
-
2026年6月优质国际学术会议推荐 1157
-
2026年智慧教育与数据挖掘国际学术 813
-
2026年第11届生物医学信号与图像 697
-
2026资源、化学化工与应用材料国际 2559
-
2026年图像处理与数字创意设计国际 2369
-
2026年机械工程,新能源与电气技术 6849
-
2026年材料科学、低碳技术与动力工 2524
-
2026年海洋科学、水利工程与环境管 06-18
-
2026年环境工程、材料科学与循环经 06-18
-
2026年航空动力、流体力学与热物理 06-18
-
2026年地球化学、核物理与地质学国 06-18
-
2026年微机电、物理学与建模仿真国 06-18
-
2026年机械工程、电子技术与自动化 06-18
-
2026 JCR影响因子正式发布272
-
中国科协发布2025年《重要学术858
-
2026年新锐分区(原中科院期刊5648
-
2025年两院院士增选有效候选人5280
-
好学术:科研网址导航|学术头条分6842
-
2025年国际期刊预警名单发布!7028
-
2025年中科院期刊分区表重磅发24788
-
吉林大学校长张希:学术会议中的提8093
-
研究表明太阳耀斑终端激波可作为地06-24
-
研究揭示藻—菌共生体系强化养殖尾06-24
-
双功能手性双核镍催化研究获进展06-24
-
研究发现银河系中心极端环境下大质06-24
-
废塑料升级利用研究取得进展06-24
-
硒太阳能电池研究取得进展06-24
-
南京大学王涛团队首次发现110亿06-24
-
海南国际医药创新联合基金会 8530

-
中国环境科学学会 24601

-
西安市西安交通大学理学院 物理教 21343

-
MFJYT 8594

-
北京金华科技有限公司 18366

-
长白山明华会议 21576

-
鼎盛文化产业投资公司 18298

-
台灣國立中央大學 23597

-
农民权益保护与区域发展研究中心 2492

-
广东省天马国际旅行社 23462

-
北京华艺喜玛会展服务有限公司上海 21496

-
中国科学院广州地球化学研究所 21292

-
中国生物工程学会 18788

-
KLSD 21473

-
北京海名汇博会展有限公司 18383

-
QS 24346

-
Global Science a 24529

-
南昌大学基础医学院生化与分子生物 21536

-
VFDAEW 24244

-
中国环境科学学会 24427





















929









































