“可解释、可通用的下一代人工智能方法”重大研究计划系列成果一 ——面向机器学习的材料数据量治理
2024/03/28
![]() |
图 融合领域知识的数据量治理流程
在国家自然科学基金项目(批准号:92270124、52073169)等资助下,上海大学计算机工程与科学学院刘悦教授与材料科学与工程学院施思齐教授团队近期发展了一种融合领域知识的数据量治理流程,实现了样本量、特征/模型参数量的治理与协调,为加速新材料研发提供了高质量数据基础。研究成果以“面向机器学习的材料数据量治理(Data quantity governance for machine learning in materials science)”为题,于2023年5月1日发表在《国家科学评论》(National Science Review),论文链接:https://academic.oup.com/nsr/article/10/7/nwad125/7147579。
由于材料性能具有复杂的驱动机制且数据获取依赖于复杂的实验或劳动密集型的采集工作,使得材料数据通常具有高维特征空间与小样本量的特点,限制了机器学习模型性能的上限。虽然通过各种数据预处理或特征工程方法能够一定程度上解决数据中存在的数量问题,但这些实践仅通过单一视角针对单一任务且集中于纯数据驱动的方式实现。治理过程缺乏科学理论框架指导,同时材料领域知识的缺乏使治理结果过度依赖于数据拟合,阻碍了机器学习模型性能的提高和可通用性。
针对上述问题,研究团队通过分析各类现有材料数据数量治理方法存在的特性与共性问题,发现仅从特征量或样本量的角度进行数据数量治理难以保证机器学习模型有效挖掘出数据的隐含模式。研究团队提出了一种融合材料领域知识的数据数量治理流程,该流程由两部分组成:(1)数据数量检测模块,旨在以领域知识与数据双向驱动的方式动态监测数据是否存在需要治理的数量问题;(2)数据数量治理模块则提供特征数量(或模型参数量)治理、样本数量治理和协同治理的策略和方法,实现对数据数量的全面控制。同时,研究团队探讨了领域知识的获取与表征方法及其融入治理全过程的方式,以在领域知识的指导下实现数据数量的协同和精准治理。
得益于融合的材料领域知识,本研究为不同类型材料的数据数量治理提供可复制和可推广的框架与方法,辅助建立数据驱动的机器学习与知识驱动的符号计算相融合的新型人工智能理论和方法,为加速AI for Science助力新材料研发提供高质量数据获取方式与高精度模型构建方式。
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2025最新JCR分区及影响因子1939
-
好学术:科研网址导航|学术头条分468
-
《时代技术》投稿全攻略:一位审稿499
-
2025年国际期刊预警名单发布!600
-
2025年中科院期刊分区表重磅发3957
-
中科院已正式发布2024年预警期861
-
2025年度国家自然科学基金项目727
-
中国科协《重要学术会议目录(202733
-
2024年国家自然科学基金项目评1138
-
2024年JCR影响因子正式发布1214
-
吉林大学校长张希:学术会议中的提1391
-
SCI论文插图全攻略:从规范解析08-01
-
国际学术会议参加经验是怎么样的呢08-01
-
掠夺性会议是怎么进行判断的呢?—08-01
-
SCI论文投稿费怎么交?202408-01
-
上海浦东盛高假日酒店 1970
-
WILL 7897
-
杨浦区四平路总工会 18130
-
北京工业大学 2015
-
西安科技大学 23171
-
大连百奥泰科技 22871
-
湖北工程学院 21322
-
武汉数字电影放映机租赁公司 2077
-
广州科奥信息技术有限公司 8095
-
fdcv 22817
-
中国生物化学与分子生物学会 17935
-
InfoBeyond Techn 2146
-
中国水利技术信息中心 1890
-
河北百信米斯文化传播有限公司 8033
-
沈阳博思教育 2272
-
北京航空航天大学 2343
-
北京华夏中医药发展基金会 20999
-
International As 2047
-
深圳信息学院 2088
-
同济大学 20921