西安交大人机所博士生研究成果在《自然》子刊《自然机器智能》发表
2026/05/12
近日,北京大学药学院联合西安交通大学人工智能与机器人研究所(以下简称“人机所”)、华盛顿大学、香港中文大学及石河子大学等单位,在小分子天然产物智能表征与药物发现研究方面取得新进展。研究团队提出了面向小分子天然产物的基础模型NaFM(Foundation Model for Natural Products),相关成果以《小分子天然产物的基础模型预训练》(Pretraining a foundation model for small-molecule natural products)为题,发表于国际高水平期刊《自然机器智能》(Nature Machine Intelligence)。
在该研究中,西安交大人机所郑南宁院士团队深度参与了模型架构设计与人工智能方法开发工作。北京大学刘振明教授、西安交大人机所郑南宁教授以及博士生王裕淞为本文共同通讯作者,北京大学硕士生丁宇恒为第一作者。
天然产物是由微生物、动物或植物产生的代谢产物,具有结构多样性高、生物活性丰富等特点,是抗肿瘤、抗感染等药物发现的重要来源。然而,其发现过程长期面临周期长、成本高、标注数据有限等挑战。现有深度学习方法多依赖单一任务的监督学习,模型泛化能力有限;而针对合成分子的通用表征方法,也难以刻画天然产物在来源、骨架结构、合成途径与生物活性之间的复杂关联。进一步而言,天然产物在化学空间中呈现出以核心母核(scaffold)为中心的层级化分布特征,并与通用化合物空间存在显著分布偏移(distribution shift),导致现有模型难以直接迁移应用。因此,构建面向天然产物结构与生物学约束的专用预训练范式尤为迫切。为此,研究团队以分子母核为核心构建表征框架,系统刻画并对齐天然产物在生物来源、生物合成基因簇、合成途径及生物活性等多维属性之间的内在关联,提出了母核感知的预训练策略。
NaFM将掩码图学习与对比学习相结合:一方面,在天然产物分子骨架区域进行子图掩码,要求模型同时重建原子属性、化学键属性和拓扑连接信息;另一方面,以骨架相似性作为软权重,引导模型区分不同分子之间的强弱负样本关系,从而更有效地学习天然产物的进化规律与结构特征。在预训练阶段,研究团队基于COCONUT 数据库中约60万条未标注天然产物结构数据,构建了面向天然产物的分子表示学习框架。实验结果表明,相较于传统分子指纹和多种预训练图神经网络方法,NaFM在天然产物分类、来源识别、基因组挖掘、活性预测和虚拟筛选等任务中表现出更强的迁移能力和鲁棒性。
NaFM的母核感知预训练框架。该框架结合母核子图重建与母核感知对比学习:在天然产物核心骨架区域遮蔽原子、化学键和拓扑连接信息,并基于骨架相似性加权对比学习,从而捕获天然产物生物来源、生物合成基因簇、合成途径与生物活性之间的内在关联。
文章来源西安交大,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年第二届计算机视觉与机器学习 201
-
2026年6月优质国际学术会议推荐 718
-
2026年智慧教育与数据挖掘国际学术 386
-
2026年第11届生物医学信号与图像 291
-
2026资源、化学化工与应用材料国际 2160
-
2026年图像处理与数字创意设计国际 1974
-
2026年机械工程,新能源与电气技术 6441
-
2026年材料科学、低碳技术与动力工 2135
-
中国成都-电力类EI会议:2026年 06-05
-
2026年人工智能、能源系统与电力电 06-05
-
2026年无线电力传输与能量收集国际 06-05
-
2026年智能建筑、低碳城市与气候变 06-05
-
2026年先进电池、电化学与储能技术 06-05
-
2026年可再生能源与分布式发电国际 06-05
-
2026年先进制造、材料与机械设计国 06-05
-
中国科协发布2025年《重要学术371
-
2026年新锐分区(原中科院期刊4440
-
2025年两院院士增选有效候选人4765
-
2025最新JCR分区及影响因子13825
-
好学术:科研网址导航|学术头条分6271
-
2025年国际期刊预警名单发布!6468
-
2025年中科院期刊分区表重磅发23598
-
吉林大学校长张希:学术会议中的提7546
-
清华大学计算机系存储实验室团队获06-06
-
清华大学深圳国际研究生院钱翔、曲06-06
-
中国科大研制仿鱼鳞巨压容传感器 06-06
-
科研人员研发出新型复合介孔状纳米06-06
-
代谢小分子抗衰老功能研究取得进展06-06
-
南京大学物理学院张海军教授课题组06-06
-
南京大学超导电子学研究所团队利用06-06
-
辽河油田公司勘探开发研究院 21767

-
上海决策者经济顾问有限公司 18255

-
莎益博 24632

-
上海亚化商务咨询有限公司 21493

-
洛阳崇才网络科技有限公司 2155

-
21140

-
湖南科技大学 21346

-
上海信息公司 2402

-
香港科技大学 18463

-
新加坡计算机学会 2819

-
成长在北京-线下网站北京发展网 18716

-
中国环境科学学会 8258

-
中国医疗卫生品牌协会 18298

-
汕头大学 8339

-
昆明市前沿信息研究中心 8315

-
WILL 2495

-
CD 24352

-
武汉泰迪智慧科技有限公司 23298

-
医药化工专业委员会 21314

-
哈尔滨工业大学市政环境工程学院 23735





















79











































