计算机系研究团队合作在化学合成指令自动转写方面取得新进展
2024/04/01
近日,计算机系自然语言处理实验室研究团队与北京大学化学与分子工程学院朱戎团队合作,在化学合成指令的自动转写方面取得新进展。研究团队提出了化学合成指令的双向转写任务,对自然语言描述和机器可执行操作指令之间的转化过程进行了标准定义与数据标注。该工作搭建了文献描述与合成指令之间的双向转写系统,并且提出多细粒度知识注入方法,针对不同层级设计预训练任务,让语言模型更高效精准地学习化学合成专业知识。在相关数据集上的实验表明,该工作构建的模型能够在合成指令双向转写上全面超过GPT-3.5系列模型表现,使用该系统辅助转写的人工效率提高40%以上。
以GPT-4为代表的大语言模型已在各学科中展现出了强大的专业知识学习能力,成为“科学人工智能”(AI for Science)方向令人瞩目的热门话题。在合成化学领域,人工智能驱动的自动化实验平台是近年来的研究热点,有望替代人类研究者开展枯燥重复的甚至有危险的合成实验。而实现自动化学合成的关键是利用好现在广泛存在于各类文献中的化学合成实验。然而,已有的化学合成实验流程均以自然语言的非结构化形式记录在文献和数据库中,这些散落在文献中的合成流程的自然语言描述与机器可执行的指令之间,存在着巨大的形式和语义鸿沟,需要人力转写才能用于人工智能自动化实验。研制化学合成指令转写系统,实现海量自然语言实验记录向机器合成指令的高效转化,支持完成更多化学合成的自动化实验,具有重要的研究意义和应用价值。
合成指令双向转写的工作流程示意图
合成指令的层次化框架
该研究结合大量化学文献的统计结果和专家知识,制定了化学合成指令的层次化框架,包含16种元操作和18种参数;参考序列匹配任务的评测方式,设计了SeqMatch指标,对合成指令转写任务的标准化评测具有重要作用;提出了针对合成化学的多细粒度知识增强预训练方法,在单词级、化学实体级、元操作级和合成序列级,分别设计了掩码学习、实体识别、操作映射、序列预测等多种预训练任务,赋予模型以当前任务所需的丰富的化学知识。
该系统相较于其他类似工作可以实现更完备而准确的合成指令生成,也能根据指令撰写流畅自然的合成化学文献段落。该工作还探索了当前模型的更多可能用途,例如针对特定合成指令预测下一步骤、根据转写表现筛选出更简明规范的文本等。这些实验表明,预训练模型可以提供面向通用合成规律以及合成描述规范性的洞察。
本系统与同类系统的指令转写表现对比
本系统与GPT-3.5系列模型在双向转写任务上的表现对比
8月24日,研究成果在英国皇家化学会综合性旗舰期刊《化学科学》(Chemical Science)以“人类可读的合成描述与机器可执行的指令之间的转写:最新预训练技术的应用”(Transcription between human-readable synthetic descriptions and machine-executable instructions: an application of the latest pre-training technology)为题发表。这是该课题组继“桥接分子结构与生医文本的预训练语言模型”(Nature Communications, 2022)之后,在生化与自然语言处理交叉领域的又一重要进展。
清华大学计算机系副教授刘知远、北京大学化学与分子工程学院研究员朱戎为文章的通讯作者。清华大学计算机系博士生曾哲妮、丁宁,北京大学本科生聂翊宸为文章的共同第一作者。该研究得到国家自然科学基金委和国家重点研发计划项目的资助。
鏂囩珷鏉ユ簮清华大学新闻锛屽垎浜彧涓哄鏈氦娴侊紝濡傛秹鍙婁镜鏉冮棶棰樿鑱旂郴鎴戜滑锛屾垜浠皢鍙婃椂淇敼鎴栧垹闄ゃ
绗笁灞婄數鍔涖佺數缃戜笌鍌ㄨ兘鍥介檯瀛︽湳浼氳(PGES.
2025绗簩灞婃満鐢典竴浣撳寲銆佹満鍣ㄤ汉涓庢帶鍒剁郴缁熷浗.
绗簩灞婂伐涓氳嚜鍔ㄥ寲涓庢満鍣ㄤ汉鍥介檯瀛︽湳浼氳锛圛AR.
绗簩灞婁汉宸ユ櫤鑳姐佸厜鐢靛瓙瀛︿笌鍏夊鎶鏈浗闄呯爺璁ㄤ細.
绗簩灞婂湡鏈ㄥ伐绋嬬粨鏋勪笌娣峰嚌鍦熸潗鏂欏浗闄呭鏈細璁紙.
绗簲灞婄數姘斿伐绋嬩笌璁$畻鏈烘妧鏈浗闄呭鏈細璁紙IC.
2025骞翠汉宸ユ櫤鑳戒笌璁$畻绀句細绉戝鍥介檯鐮旇浼氾紙.
2025骞存櫤鑳借澶囦笌鑷富绯荤粺鍥介檯瀛︽湳浼氳锛圛.
2025骞存櫤鑳藉厜瀛愬涓庡簲鐢ㄦ妧鏈浗闄呭鏈細璁紙.
2025骞寸敓鎴愬紡AI涓庢暟瀛楀獟浣撹壓鏈浗闄呭鏈細.
绗竷灞婂湡鏈ㄥ伐绋嬨佺幆澧冭祫婧愪笌鑳芥簮鏉愭枡鍥介檯瀛︽湳浼.
绗叚灞婅绠楁満瑙嗚涓庢暟鎹寲鎺樺浗闄呭鏈細璁紙IC.
绗簲灞婅兘婧愩佸姩鍔涗笌鐢垫皵宸ョ▼鍥介檯瀛︽湳浼氳锛圗P.
2025骞寸涓冨眾鍏堣繘璁$畻鏈虹瀛︼紝淇℃伅鎶鏈笌閫.
2025骞寸數姘斿伐绋嬩笌鏅鸿兘鐢电綉鍥介檯瀛︽湳浼氳 (.
绗洓灞婂浘鍍忓鐞嗐佺洰鏍囨娴嬩笌璺熻釜鍥介檯瀛︽湳浼氳锛.
2025绗簲灞婁汉宸ユ櫤鑳姐佽嚜鍔ㄥ寲涓庨珮鎬ц兘璁$畻鍥.
绗簩灞婃満鍣ㄤ汉涓庡厛杩涘埗閫犳妧鏈浗闄呭鏈細璁紙RA.
绗笁灞婁汉宸ユ櫤鑳戒笌鑷姩鍖栨帶鍒跺浗闄呭鏈細璁紙AI.
绗叚灞婁俊鎭瀛︿笌骞惰銆佸垎甯冨紡澶勭悊鍥介檯瀛︽湳浼氳.
2025骞寸浜斿眾浜哄伐鏅鸿兘锛岃嚜鍔ㄥ寲涓庣畻娉曞浗闄呬細.
2025骞寸鍥涘眾閫氫俊锛屼俊鎭郴缁熶笌鏁版嵁绉戝鍥介檯.
2025骞存暟鎹瀛︿笌鏅鸿兘绯荤粺鍥介檯浼氳(DSI.
2025骞寸浜屽眾IEEE浜氭床鍏堣繘鐢垫皵涓庣數鍔涘伐.
-
2025鏈鏂癑CR鍒嗗尯鍙婂奖鍝嶅洜瀛1939
-
濂藉鏈:绉戠爺缃戝潃瀵艰埅|瀛︽湳澶存潯鍒468
-
銆婃椂浠f妧鏈嬫姇绋垮叏鏀荤暐锛氫竴浣嶅绋499
-
2025骞村浗闄呮湡鍒婇璀﹀悕鍗曞彂甯!600
-
2025骞翠腑绉戦櫌鏈熷垔鍒嗗尯琛ㄩ噸纾呭彂3957
-
涓闄㈠凡姝e紡鍙戝竷2024骞撮璀︽湡861
-
2025骞村害鍥藉鑷劧绉戝鍩洪噾椤圭洰727
-
涓浗绉戝崗銆婇噸瑕佸鏈細璁洰褰曪紙202733
-
2024骞村浗瀹惰嚜鐒剁瀛﹀熀閲戦」鐩瘎1138
-
2024骞碕CR褰卞搷鍥犲瓙姝e紡鍙戝竷1214
-
鍚夋灄澶у鏍¢暱寮犲笇锛氬鏈細璁腑鐨勬彁1391
-
SCI璁烘枃鎻掑浘鍏ㄦ敾鐣ワ細浠庤鑼冭В鏋08-01
-
鍥介檯瀛︽湳浼氳鍙傚姞缁忛獙鏄庝箞鏍风殑鍛08-01
-
鎺犲ず鎬т細璁槸鎬庝箞杩涜鍒ゆ柇鐨勫憿锛熲08-01
-
SCI璁烘枃鎶曠ǹ璐规庝箞浜わ紵202408-01
-
CDS 2117
-
武汉青博盛学术服务有限公司 20943
-
华中农业大学微生物农药国家工程研 18063
-
《特种铸造及有色合金》杂志社 18017
-
浙江大学电气工程学院 1953
-
北京 23050
-
沈阳理工大学 18122
-
武汉红矮星传媒有限公司 8032
-
iwemse2018 24059
-
中南大学商学院会计系 18116
-
云南兆驰会议展览服务有限公司 24005
-
北京实验动物研究中心 23920
-
新疆克拉玛依石西油田 18442
-
沸点会展(广州)有限公司 8042
-
扬州大学信息工程学院 18038
-
湖北省武汉大学 18033
-
百奥泰集团 1942
-
北京合力飞扬文化有限公司 18017
-
贵阳原野旅游有限公司 18025
-
WILL 7897