上海交大计算机学院联合变革性分子前沿科学中心发表化学合成大模型
2025/09/06
依托上海交通大学AI for Science科学数据开源开放平台,在上海市人工智能重大专项的支持下,上海交通大学计算机学院AI for Science团队许岩岩副教授、金耀辉教授、杨小康教授等人联合上海交通大学变革性分子前沿科学中心朱峰副教授团队,在人工智能化学有机合成领域(AI for Chemistry)取得重大原创突破。相关研究于2025年7月1日,以“Large language models to accelerate organic chemistry synthesis”为题在线发表在《Nature Machine Intelligence》,展现通用人工智能大模型赋能有机化学合成的巨大潜力。
自2023年初,计算机学院AI for Science团队开始构建白玉兰科学大模型,涵盖化学合成、蛋白质结构解析、流体力学、城市科学等基础与新兴学科。作为白玉兰科学大模型的成果之一,该研究首次实现化学大语言模型加速有机合成全流程。无需量子计算,仅依靠化学知识理解和推理能力,实现了在单步/多步逆合成、产率预测、选择性预测、反应优化等多个基准任务上,超越以往所有已知的最佳结果。建立了“Co-Chemist”人机协作的主动学习框架,在一项全新的、未曾报道的Suzuki-Miyaura交叉偶联反应中,仅用15次实验就成功找到了合适的配体和溶剂,实现了67%的分离产率,充分验证了其在加速真实化学发现中的巨大价值,解决了实验科学中反复试错的重大难题,为大型语言模型加速有机化学合成提供了新的研究范式和方法。
论文信息
Zhang, Y., Han, Y., Chen, S. et al. Large language models to accelerate organic chemistry synthesis. Nat Mach Intell 7, 1010–1022 (2025).
模型在线试用网址:https://ai4chem.sjtu.edu.cn
研究背景
化学合成作为创造变革性分子的基础方法,对生命科学、材料和能源的各个领域产生了重大影响。尽管过去几十年化学仪器取得了长足进步,但面对浩瀚的反应空间和复杂的分子结构,化学家们仍需反复查阅文献、设计方案并进行湿实验验证。为了改变这一现状,传统的AI方法,如基于密度泛函理论(DFT)计算或贝叶斯优化的模型,虽然在特定任务上取得了进展,但存在明显局限:它们通常严重依赖专家知识进行特征工程和分子参数化,需要高通量实验平台提供大量数据,并且大多只能在专家预先设定的“封闭反应空间”(如一个固定的配体或溶剂库)内进行优化,这可能导致错过性能更优的未知选择。
近年来,以GPT为代表的大语言模型展现了强大的通用能力,但在化学领域的应用仍处于初级阶段,其化学专业能力有限,难以自主探索和优化未报道的反应。为了克服上述挑战,研究者们提出了一个核心问题:我们能否构建一个深度融合化学知识的大语言模型,它既能像人类化学家一样从SMILES分子式和反应数据中理解化学结构和规律,又具备LLM的强大生成能力,从而能够在开放的反应空间中进行真正的探索与发现?因此,该研究设计提出白玉兰化学合成大模型(称之为Chemma),旨在成为能够与化学家互动、辅助实验决策、并最终加速有机合成进程的生成式AI助手。Chemma 能从SMILES序列中学习分子表征,理解化学结构;通过海量反应数据预训练,Chemma能像化学家一样学习反应物、产物和条件之间的复杂关系;Chemma的生成能力使其能够设计全新的分子(如推荐新配体),从而突破预设条件的限制,指导探索新反应(下图所示)。
图1: Chemma协助有机化学合成的功能与应用场景。科学家可以围绕四项主要任务与Chemma交流,包括正向反应预测、逆合成、条件生成和性能预测(如产率和选择性)。
创新成果
团队实现在多个化学基准任务上性能验证。在USPTO-50k数据集上,Chemma在单步逆合成任务中实现了72.2%的Top-1准确率,显著优于文献报道的最优Top-1准确率57.7%。在多步合成测试中,Chemma能够设计合理的反应步骤,并通过专家验证;对于产率预测/选择性预测(区域选择性与对映选择性)任务,Chemma无需DFT特征,对高通量实验数据预测R2达到了0.88;对于配体/催化剂推荐任务,Chemma可在预设条件下给出最优配体,在多数测试组合中,其推荐配体带来更高中位产率,同时准确率达到93.7%。依托变革性分子前沿科学中心,针对特定反应,Chemma可在线设计生成20多种催化剂,10多种试剂,和多种添加剂,同时实现实验优化,快速提高化学实验效率。
图 2: Chemma在不同有机合成任务上的性能评估,包括正向反应预测、逆合成、条件生成和性能预测(如产率和选择性)。
除了预测能力之外,Chemma还可作为“数据生成器”,在数据稀疏的情况下,通过生成高质量伪数据来提升传统实验优化算法(BO)的性能。实验验证在Suzuki–Miyaura与Buchwald–Hartwig反应中大幅减少了实验次数,相比传统BO算法需要50次以上,Chemma-BO仅用10-15次实验就能达到98%以上的产率,反应优化效率提高50%。
图 3: Chemma合成数据用于提高产率预测和反应优化,评估三种不同方法(Chemma-BO、GPT-4和BO)在铃木-宫浦和布赫瓦尔德-哈特维希反应上的平均累计最大观察产率。
该模型不能能够实现反应预测,还能从未知反应空间中探索实现反应设计和优化。在变革性分子前沿科学中心朱峰副教授的大力支持下,团队开展了湿实验验证。对于一个未报道N杂环交叉偶联反应,研究人员将Chemma集成入主动学习框架,探索反应适配的配体与溶剂。通过“人-机协作”的主动学习循环,第一轮尝试失败后,Chemma进行实验数据反馈和在线微调,在第二轮便精准地推荐了高效的配体(PAd3),最终仅用15次实验,就成功实现了67%的分离产率。此任务展示了Chemma在开放反应空间中辅助探索未知反应条件的潜力。
图 4:Chemma驱动的反应探索和优化的主动学习框架。通过主动学习框架对未见文献报道的反应(α-芳基 N 杂环的合成)进行配体和溶剂的探索。
研究意义
研究团队另辟蹊径,将化学反应视作自然语言任务,学习其结构与规律,在多个有机化学任务中表现优异,展现出良好的人机协作能力。特别是在无需DFT的条件下实现产率与选择性的精准预测,以及在开放空间中完成自主优化,充分证明了语言模型在化学合成中的适用性。
作者信息
上海交通大学计算机学院博士生张雨为本文第一作者,变革性分子前沿科学中心博士生韩阳和陈帅在湿实验方面做出重要贡献。计算机学院许岩岩副教授、金耀辉教授、杨小康教授、上海交通大学变革性分子前沿科学中心朱峰副教授为本文通讯作者。丁奎岭院士对本研究给予了宝贵的建议和指导,本研究得到了上海市人工智能重大专项资助,以及上海交通大学AI for Science科学数据开源开放平台支持。
团队介绍
上海交通大学计算机学院AI for Science团队在杨小康教授、金耀辉教授、许岩岩副教授带领下,包括十余位博士后与硕博研究生,重点研究生成式人工智能,特别是科学大模型赋能化学研究,针对有机化学合成、自动化实验等重大问题提出了一系列创新解决方案。团队发布了首个化学合成大语言模型——白玉兰科学大模型,是首个具备反应生成与“人在环路”反馈优化能力、能够指导实验探索的化学大模型,具有分子设计、逆合成线路规划、反应条件生成、反应产率预测、实验条件优化迭代等化学合成全功能。团队研究成果已发表于Nature Energy, Nature Computational Science (封面), Nature Machine Intelligence, Science Advances, 以及CCF A类会议。团队所属的人工智能教育部重点实验室计算资源丰富,积累大量数据和基础模型,并与化学与化工学院、变革性分子前沿科学中心团队紧密合作,形成交叉学科研究体系。
文章来源上海交大,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
- 
  2025年11月优质学术会议推荐 16
   - 
  2025年机器视觉、智能成像与模式识 392
   - 
  2025年第七届控制与机器人国际会议 576
   - 
  2025年智能光子学与应用技术国际学 1529
   - 
  2025年机械工程,新能源与电气技术 1790
   - 
  2025年计算机科学、图像分析与信号 2065
   - 
  2025年材料化学与燃料电池技术国际 1861
   - 
  2025年自动化前沿系统、智慧城市与 10-23
   - 
  2025年信息光学、遥感技术与机器视 10-23
   - 
  2025年数字人文、文化遗产与语言学 10-23
   - 
  2025年神经科学、生物信息学与智能 10-23
   - 
  2025年语言认知、人工智能与计算建 10-23
   - 
  2025年社会科学、应用语言学与人文 10-23
   - 
  2025年传统机械、动力学与智能装备 10-23
   - 
  2025年图像处理、物理建模与结构设 10-23
   
- 
  2025年两院院士增选有效候选人1145
 - 
  2025最新JCR分区及影响因子4758
 - 
  好学术:科研网址导航|学术头条分2033
 - 
  2025年国际期刊预警名单发布!1930
 - 
  2025年中科院期刊分区表重磅发8447
 - 
  中国科协《重要学术会议目录(205134
 - 
  吉林大学校长张希:学术会议中的提2840
 - 
  清华大学地学系阳坤课题组揭示全球10-20
 - 
  历史时期极端干旱灾害的数据评估和10-20
 - 
  “清华化学百年论坛:塑造化学的未10-20
 - 
  研究揭示植物激素独脚金内酯作为跨10-20
 - 
  清华大学联合研发的“46MW大容10-20
 - 
  清华大学(软件学院)-九疆电力建10-20
 - 
  中国农业大学土地学院马韫韬教授团10-20
 - 
  电子科技大学光电学院本科生在一区10-20
 
- 
  北京化工大学 21083

 - 
  青岛大学 老师 18361

 - 
  中国能源学会 24321

 - 
  沈阳中意国际旅行社会议服务部 20956

 - 
  武汉青博盛学术服务有限公司 2159

 - 
  北京会议公司 18291

 - 
  郑州迎春会议策划有限公司 24103

 - 
  南京农业大学 18101

 - 
  重庆维普资讯有限公司 8317

 - 
  上海信谊药厂有限公司 18300

 - 
  华中农业大学文法学院 23134

 - 
  2017第二届能源工程与环境保护 24110

 - 
  亚州现代经济研究所 18067

 - 
  dewfew 8227

 - 
  中国铸造协会 21060

 - 
  昆明中国国旅 23028

 - 
  香港机械工程师协会 2082

 - 
  经贸导刊 23120

 - 
  天津市国土资源与房屋职业学院 18135

 - 
  IETP-Association 2314

 
						
					 
					















 118
















































						
						