- 核心期刊和SCI期刊哪个影响因子 21
- 物理学理论的本质有哪些 67
- 环境学院蒋靖坤研究组在挥发性有机 47
- 知网查重代码怎么算字数的 43
- 昆虫学相关论文的中文学术期刊有哪 54
- 见刊快的医学sci期刊选刊方法有 91
- 一些历史建筑保护工程方向的优秀论 50
- 综述论文能否在SCI一区发表? 81
- 详细分析SCI复审时间长的原因 72
- 《广东医学》期刊简介 35
- 探讨论文引用率的常用计算方法 19
- sci论文二作和通讯作者哪个重要 46
- 《Deutsches Azebl 68
- 发表制度经济学经济学论文相关的期 59
- 生命科学学院苗成林课题组发现海马 49
- 重庆文理学院 17409
- 上海显昶会展服务有限公司 20379
- WILL 7401
- 20372
- 山东大学文学与新闻传播学院 23402
- 上海市人民政府 17400
- 北京达华低碳院 1391
- WWX 22386
- 香港机械工程师协会 1418
- 北京工业大学 1399
- 华北电力大学 17421
- 济南兆龙文化传媒有限公司 1401
- 信息技术亚洲联盟 7397
- 中国医学科学院输血研究所 20417
- 武汉红矮星传媒有限公司 7382
- 上海宽带业务研究所 17461
- 中国农业产业经济发展协会 17408
- 北京海名汇博会展有限公司 17375
- 华夏中医药发展基金会 23425
- 湖南农业大学 17415
计算机系研究团队合作在化学合成指令自动转写方面取得新进展
2024/04/01
近日,计算机系自然语言处理实验室研究团队与北京大学化学与分子工程学院朱戎团队合作,在化学合成指令的自动转写方面取得新进展。研究团队提出了化学合成指令的双向转写任务,对自然语言描述和机器可执行操作指令之间的转化过程进行了标准定义与数据标注。该工作搭建了文献描述与合成指令之间的双向转写系统,并且提出多细粒度知识注入方法,针对不同层级设计预训练任务,让语言模型更高效精准地学习化学合成专业知识。在相关数据集上的实验表明,该工作构建的模型能够在合成指令双向转写上全面超过GPT-3.5系列模型表现,使用该系统辅助转写的人工效率提高40%以上。
以GPT-4为代表的大语言模型已在各学科中展现出了强大的专业知识学习能力,成为“科学人工智能”(AI for Science)方向令人瞩目的热门话题。在合成化学领域,人工智能驱动的自动化实验平台是近年来的研究热点,有望替代人类研究者开展枯燥重复的甚至有危险的合成实验。而实现自动化学合成的关键是利用好现在广泛存在于各类文献中的化学合成实验。然而,已有的化学合成实验流程均以自然语言的非结构化形式记录在文献和数据库中,这些散落在文献中的合成流程的自然语言描述与机器可执行的指令之间,存在着巨大的形式和语义鸿沟,需要人力转写才能用于人工智能自动化实验。研制化学合成指令转写系统,实现海量自然语言实验记录向机器合成指令的高效转化,支持完成更多化学合成的自动化实验,具有重要的研究意义和应用价值。
合成指令双向转写的工作流程示意图
合成指令的层次化框架
该研究结合大量化学文献的统计结果和专家知识,制定了化学合成指令的层次化框架,包含16种元操作和18种参数;参考序列匹配任务的评测方式,设计了SeqMatch指标,对合成指令转写任务的标准化评测具有重要作用;提出了针对合成化学的多细粒度知识增强预训练方法,在单词级、化学实体级、元操作级和合成序列级,分别设计了掩码学习、实体识别、操作映射、序列预测等多种预训练任务,赋予模型以当前任务所需的丰富的化学知识。
该系统相较于其他类似工作可以实现更完备而准确的合成指令生成,也能根据指令撰写流畅自然的合成化学文献段落。该工作还探索了当前模型的更多可能用途,例如针对特定合成指令预测下一步骤、根据转写表现筛选出更简明规范的文本等。这些实验表明,预训练模型可以提供面向通用合成规律以及合成描述规范性的洞察。
本系统与同类系统的指令转写表现对比
本系统与GPT-3.5系列模型在双向转写任务上的表现对比
8月24日,研究成果在英国皇家化学会综合性旗舰期刊《化学科学》(Chemical Science)以“人类可读的合成描述与机器可执行的指令之间的转写:最新预训练技术的应用”(Transcription between human-readable synthetic descriptions and machine-executable instructions: an application of the latest pre-training technology)为题发表。这是该课题组继“桥接分子结构与生医文本的预训练语言模型”(Nature Communications, 2022)之后,在生化与自然语言处理交叉领域的又一重要进展。
清华大学计算机系副教授刘知远、北京大学化学与分子工程学院研究员朱戎为文章的通讯作者。清华大学计算机系博士生曾哲妮、丁宁,北京大学本科生聂翊宸为文章的共同第一作者。该研究得到国家自然科学基金委和国家重点研发计划项目的资助。
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
中国地震局地质研究所与海外合作者在断层同震动态弱化机制研究方面取得进展
中国地震局地震预测研究所在板块俯冲与地幔相互作用研究方面取得进展
中国科协组织人事部关于申报2024年度组织建设理论研究课题(第一批)的通知
北京大学深圳研究生院潘锋/杨卢奕团队在《化学》期刊发表钠金属负极界面稳定性的重要突破
北京大学物理学院李源课题组与合作者发表关于MnSi晶体中磁性分子轨道的发现
第三届机电一体化与机械工程国际会议(ICMME2024)(2024-05-24)
2024年电子器件、传感控制技术与光学机械工程国际学术会议(EDSCTOE 2024)(2024-05-25)
第十四届地质和地球物理学国际会议(ICGG 2024)(2024-05-31)
2024年食品工程与农业科学国际会议(ICFEAS 2024)(2024-06-02)
2024年第三届网络、通信与信息技术国际会议(CNCIT 2024)(2024-06-07)
第四届计算机图形学、图像与虚拟化研究国际会议(ICCGIV 2024)(2024-06-07)
第十届机械工程、材料和自动化技术国际会议(MMEAT 2024)(2024-06-21)
第二届电力、电网与储能国际学术会议(PGES 2024)(2024-06-21)
2024年先进机器人,自动化工程与机器学习国际会议(ARAEML 2024)(2024-06-28)
第五届机械工程、智能制造与机电一体化学术会议暨 2024年汽车新材料新工艺技术论坛(MEIMM2024)(2024-07-05)
2024教育科学、语言与文化传播国际会议(ICESLCC 2024)(2024-6-30)
2024年工业电子与人工智能国际会议(ICIEAI 2024)(2024-6-29)
2024土木工程、城市规划与交通运输国际会议(ICCEUPT2024)(2024-6-28)
2024年信息管理与数据科学国际会议( ICIMDS 2024)(2024-5-31)
2024年体育科学、健康大数据与智能医疗国际会议(ICSSHBDIM 2024)(2024-6-29)
2024年智能计算、信号处理与计算机科学国际会议(ICSPCS 2024)(2024-5-28)
2024年教育心理学与社会研究国际会议(ICEPSR 2024)(2024-6-29)
2024文学、设计与艺术鉴赏国际学术会议(ICLDAA 2024)(2024-6-28)
2024年第13届运输和交通工程国际会议 (ICTTE 2024)(2024-12-28)
2024年知识经济与智慧金融国际学术会议(ICKESF 2024)(2024-6-30)