褰撳墠浣嶇疆锛棣栭〉 >> 学术资讯 >> 科研信息

计算机系研究团队合作在化学合成指令自动转写方面取得新进展

2024/04/01

近日,计算机系自然语言处理实验室研究团队与北京大学化学与分子工程学院朱戎团队合作,在化学合成指令的自动转写方面取得新进展。研究团队提出了化学合成指令的双向转写任务,对自然语言描述和机器可执行操作指令之间的转化过程进行了标准定义与数据标注。该工作搭建了文献描述与合成指令之间的双向转写系统,并且提出多细粒度知识注入方法,针对不同层级设计预训练任务,让语言模型更高效精准地学习化学合成专业知识。在相关数据集上的实验表明,该工作构建的模型能够在合成指令双向转写上全面超过GPT-3.5系列模型表现,使用该系统辅助转写的人工效率提高40%以上。

以GPT-4为代表的大语言模型已在各学科中展现出了强大的专业知识学习能力,成为“科学人工智能”(AI for Science方向令人瞩目的热门话题。在合成化学领域,人工智能驱动的自动化实验平台是近年来的研究热点,有望替代人类研究者开展枯燥重复的甚至有危险的合成实验。而实现自动化学合成的关键是利用好现在广泛存在于各类文献中的化学合成实验。然而,已有的化学合成实验流程均以自然语言的非结构化形式记录在文献和数据库中,这些散落在文献中的合成流程的自然语言描述与机器可执行的指令之间,存在着巨大的形式和语义鸿沟,需要人力转写才能用于人工智能自动化实验。研制化学合成指令转写系统,实现海量自然语言实验记录向机器合成指令的高效转化,支持完成更多化学合成的自动化实验,具有重要的研究意义和应用价值。

合成指令双向转写的工作流程示意图

合成指令的层次化框架

该研究结合大量化学文献的统计结果和专家知识,制定了化学合成指令的层次化框架,包含16种元操作和18种参数;参考序列匹配任务的评测方式,设计了SeqMatch指标,对合成指令转写任务的标准化评测具有重要作用;提出了针对合成化学的多细粒度知识增强预训练方法,在单词级、化学实体级、元操作级和合成序列级,分别设计了掩码学习、实体识别、操作映射、序列预测等多种预训练任务,赋予模型以当前任务所需的丰富的化学知识。

该系统相较于其他类似工作可以实现更完备而准确的合成指令生成,也能根据指令撰写流畅自然的合成化学文献段落。该工作还探索了当前模型的更多可能用途,例如针对特定合成指令预测下一步骤、根据转写表现筛选出更简明规范的文本等。这些实验表明,预训练模型可以提供面向通用合成规律以及合成描述规范性的洞察。

本系统与同类系统的指令转写表现对比

本系统与GPT-3.5系列模型在双向转写任务上的表现对比

8月24日,研究成果在英国皇家化学会综合性旗舰期刊《化学科学》(Chemical Science)以“人类可读的合成描述与机器可执行的指令之间的转写:最新预训练技术的应用”(Transcription between human-readable synthetic descriptions and machine-executable instructions: an application of the latest pre-training technology)为题发表。这是该课题组继“桥接分子结构与生医文本的预训练语言模型”(Nature Communications, 2022)之后,在生化与自然语言处理交叉领域的又一重要进展。

清华大学计算机系副教授刘知远、北京大学化学与分子工程学院研究员朱戎为文章的通讯作者。清华大学计算机系博士生曾哲妮、丁宁,北京大学本科生聂翊宸为文章的共同第一作者。该研究得到国家自然科学基金委和国家重点研发计划项目的资助。


鐗堟潈澹版槑锛
鏂囩珷鏉ユ簮清华大学新闻锛屽垎浜彧涓哄鏈氦娴侊紝濡傛秹鍙婁镜鏉冮棶棰樿鑱旂郴鎴戜滑锛屾垜浠皢鍙婃椂淇敼鎴栧垹闄ゃ

鐩稿叧瀛︽湳璧勮
杩戞湡浼氳

2025艺术、服装设计与纺织科学国际会议(FDTS 2025)(2025-07-26)

第八届声学、振动、噪声控制国际研讨会(CAVNC 2025)(2025-08-09)

2025年矿山工程、地质工程与环境工程国际会议(ICMEGEEE 2025)(2025-08-10)

标准化、信息化、智能化(AI)赋能科技成果评估转化与高价值专利布局高级研修班(8月青岛)(2025-08-13)

第六届清洁能源与电力工程国际学术会议(ICCEPE 2025)(2025-08-15)

2025年可信大数据与人工智能国际会议(ICTBAI2025)(2025-08-21)

2025年第三届智能制造与自动化前沿国际会议(CFIMA 2025)(2025-08-22)

第六届物联网、人工智能与机械自动化国际学术会议 (IoTAIMA 2025)(2025-08-22)

第五届测量控制与仪器仪表国际学术会议(MCAI 2025)(2025-08-22)

第十届工程机械与车辆工程新进展国际学术会议(ICACMVE 2025)(2025-08-22)

2025年地理信息系统、统计与遥感国际学术会议(GISSRS 2025)(2025-9-6)

?2025年轨道交通与导航国际会议(ICRTN 2025)(2025-8-18)

2025年智能交通与智慧能源国际学术会议(ICITSE 2025)(2025-8-17)

第三届电力、电网与储能国际学术会议(PGES 2025)(2025-8-22)

2025年大数据分析与信息经济国际学术会议(ICBDAIE 2025)(2025-8-10)

2025大数据、区块链与虚拟现实国际会议(ICBDBVR 2025)(2025-8-30)

2025年仪器科学与卫星导航国际会议(ICISSN 2025)(2025-9-28)

2025年工业自动化、控制系统与电子信息工程国际会议(ICIAEE 2025)(2025-9-10)

2025年量子光学与信息科学国际学术会议(ICQOIS 2025)(2025-9-12)

第二届岩土力学与水工结构国际学术会议(GHS 2025)(2025-9-19)

灏忚创澹锛氬鏈細璁簯鏄鏈細璁煡璇㈡绱㈢殑绗笁鏂归棬鎴风綉绔欍傚畠鏄細璁粍缁囧彂甯冧細璁俊鎭佷紬澶氬鏈埍濂借呭弬鍔犱細璁佹壘浼氳鐨勫弻鍚戜氦娴佸钩鍙般傚畠鍙彁渚涘浗鍐呭瀛︽湳浼氳淇℃伅棰勬姤銆佸垎绫绘绱€佸湪绾挎姤鍚嶃佽鏂囧緛闆嗐佽祫鏂欏彂甯冧互鍙婁簡瑙e鏈祫璁紝鏌ユ壘浼氭湇鏈烘瀯绛夋湇鍔★紝鏀寔PC銆佸井淇°丄PP锛屼笁濯掕仈鍔ㄣ
缁煎悎鎺ㄨ崘鍖

瀛︽湳绉戠爺缃戝潃瀵艰埅锛430+绔欙紝瀹氬埗瀛︽湳涔︾

2025 IEEE绗叚灞婃帶鍒讹紝鏈哄櫒浜轰笌鏅鸿兘绯.

2025骞碔EEE鐢靛姏涓庡彲鎸佺画鑳芥簮鎶鏈浗闄呬細.

2025骞寸敓鎴愬紡AI涓庢暟瀛楀獟浣撹壓鏈浗闄呭鏈細.

绗竷灞婂湡鏈ㄥ伐绋嬨佺幆澧冭祫婧愪笌鑳芥簮鏉愭枡鍥介檯瀛︽湳浼.

绗叚灞婅绠楁満瑙嗚涓庢暟鎹寲鎺樺浗闄呭鏈細璁紙IC.

绗簲灞婅兘婧愩佸姩鍔涗笌鐢垫皵宸ョ▼鍥介檯瀛︽湳浼氳锛圗P.

2025骞寸涓冨眾鍏堣繘璁$畻鏈虹瀛︼紝淇℃伅鎶鏈笌閫.

2025骞寸數姘斿伐绋嬩笌鏅鸿兘鐢电綉鍥介檯瀛︽湳浼氳 (.

绗洓灞婂浘鍍忓鐞嗐佺洰鏍囨娴嬩笌璺熻釜鍥介檯瀛︽湳浼氳锛.

2025绗簲灞婁汉宸ユ櫤鑳姐佽嚜鍔ㄥ寲涓庨珮鎬ц兘璁$畻鍥.

绗簩灞婃満鍣ㄤ汉涓庡厛杩涘埗閫犳妧鏈浗闄呭鏈細璁紙RA.

绗笁灞婁汉宸ユ櫤鑳戒笌鑷姩鍖栨帶鍒跺浗闄呭鏈細璁紙AI.

绗叚灞婁俊鎭瀛︿笌骞惰銆佸垎甯冨紡澶勭悊鍥介檯瀛︽湳浼氳.

2025骞碔EEE绗洓灞婄畻娉曘佹暟鎹寲鎺樺拰淇℃伅.

2025骞寸浜斿眾浜哄伐鏅鸿兘锛岃嚜鍔ㄥ寲涓庣畻娉曞浗闄呬細.

2025骞碔EEE绗叓灞婃満鍣ㄥ涔犲拰鑷劧璇█澶.

2025骞碔EEE绗叓灞婃暟鎹瀛︿笌淇℃伅鎶鏈浗.

2025骞寸鍥涘眾閫氫俊锛屼俊鎭郴缁熶笌鏁版嵁绉戝鍥介檯.

2025骞存暟鎹瀛︿笌鏅鸿兘绯荤粺鍥介檯浼氳(DSI.

2025骞寸浜屽眾IEEE浜氭床鍏堣繘鐢垫皵涓庣數鍔涘伐.

2025骞寸鍥涘眾鍏堣繘鐨勭數鍔涚郴缁熷拰鑳芥簮宸ョ▼鍥介檯.

2025骞碔EEE绗洓灞婂厛杩涚殑鐢靛瓙銆佺數姘斿拰缁.

2025骞碔EEE绗叓灞婄畻娉曪紝璁$畻涓庝汉宸ユ櫤鑳.