“可解释、可通用的下一代人工智能方法”重大研究计划系列成果一 ——面向机器学习的材料数据量治理
2024/03/28
![]() |
图 融合领域知识的数据量治理流程
在国家自然科学基金项目(批准号:92270124、52073169)等资助下,上海大学计算机工程与科学学院刘悦教授与材料科学与工程学院施思齐教授团队近期发展了一种融合领域知识的数据量治理流程,实现了样本量、特征/模型参数量的治理与协调,为加速新材料研发提供了高质量数据基础。研究成果以“面向机器学习的材料数据量治理(Data quantity governance for machine learning in materials science)”为题,于2023年5月1日发表在《国家科学评论》(National Science Review),论文链接:https://academic.oup.com/nsr/article/10/7/nwad125/7147579。
由于材料性能具有复杂的驱动机制且数据获取依赖于复杂的实验或劳动密集型的采集工作,使得材料数据通常具有高维特征空间与小样本量的特点,限制了机器学习模型性能的上限。虽然通过各种数据预处理或特征工程方法能够一定程度上解决数据中存在的数量问题,但这些实践仅通过单一视角针对单一任务且集中于纯数据驱动的方式实现。治理过程缺乏科学理论框架指导,同时材料领域知识的缺乏使治理结果过度依赖于数据拟合,阻碍了机器学习模型性能的提高和可通用性。
针对上述问题,研究团队通过分析各类现有材料数据数量治理方法存在的特性与共性问题,发现仅从特征量或样本量的角度进行数据数量治理难以保证机器学习模型有效挖掘出数据的隐含模式。研究团队提出了一种融合材料领域知识的数据数量治理流程,该流程由两部分组成:(1)数据数量检测模块,旨在以领域知识与数据双向驱动的方式动态监测数据是否存在需要治理的数量问题;(2)数据数量治理模块则提供特征数量(或模型参数量)治理、样本数量治理和协同治理的策略和方法,实现对数据数量的全面控制。同时,研究团队探讨了领域知识的获取与表征方法及其融入治理全过程的方式,以在领域知识的指导下实现数据数量的协同和精准治理。
得益于融合的材料领域知识,本研究为不同类型材料的数据数量治理提供可复制和可推广的框架与方法,辅助建立数据驱动的机器学习与知识驱动的符号计算相融合的新型人工智能理论和方法,为加速AI for Science助力新材料研发提供高质量数据获取方式与高精度模型构建方式。
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
好学术:科研网址导航|学术头条分232
-
《时代技术》投稿全攻略:一位审稿243
-
2025年国际期刊预警名单发布!374
-
2025年中科院期刊分区表重磅发3126
-
中科院已正式发布2024年预警期604
-
2025年度国家自然科学基金项目524
-
中国科协《重要学术会议目录(201759
-
2024年国家自然科学基金项目评896
-
2024年JCR影响因子正式发布887
-
吉林大学校长张希:学术会议中的提1103
-
如何成功度过研究生生涯,三件事助06-13
-
离开国企,圆梦985:一位青年的06-13
-
学术会议参与指南,会议交流技巧分06-13
-
刊物发表攻略:投稿技巧与注意事项06-13
-
技术创新,世界从此不同06-13
-
海纳集团 23347
-
IET工程技术咨询(北京)有限公 17874
-
北京中经蓝山文化交流有限公司 17916
-
维科信息产业研究中心 22882
-
华衡创世(北京)信息咨询有限公司 22924
-
2017年第二届先进电子科学与技 23850
-
福州大学物理与信息工程学院 22962
-
青岛大学交流中心会议酒店 18085
-
四川省重庆市西南大学 17891
-
IRnet 7973
-
BIT 20875
-
云南大学化学科学与工程学院 21004
-
中华医学会放射学分会骨关节组 20955
-
云南省昆明博世会展有限公司 17988
-
云南兆驰会议展览服务有限公司 23923
-
中国卫视传媒国际会展旅游 22814
-
中金国研 1896
-
中国日用化学工业研究院 22918
-
中国科学院科学时报社 23039
-
会议合影,照相摄像 1920