“可解释、可通用的下一代人工智能方法”重大研究计划系列成果一 ——面向机器学习的材料数据量治理
2024/03/28
![]()  | 
    
图 融合领域知识的数据量治理流程
在国家自然科学基金项目(批准号:92270124、52073169)等资助下,上海大学计算机工程与科学学院刘悦教授与材料科学与工程学院施思齐教授团队近期发展了一种融合领域知识的数据量治理流程,实现了样本量、特征/模型参数量的治理与协调,为加速新材料研发提供了高质量数据基础。研究成果以“面向机器学习的材料数据量治理(Data quantity governance for machine learning in materials science)”为题,于2023年5月1日发表在《国家科学评论》(National Science Review),论文链接:https://academic.oup.com/nsr/article/10/7/nwad125/7147579。
由于材料性能具有复杂的驱动机制且数据获取依赖于复杂的实验或劳动密集型的采集工作,使得材料数据通常具有高维特征空间与小样本量的特点,限制了机器学习模型性能的上限。虽然通过各种数据预处理或特征工程方法能够一定程度上解决数据中存在的数量问题,但这些实践仅通过单一视角针对单一任务且集中于纯数据驱动的方式实现。治理过程缺乏科学理论框架指导,同时材料领域知识的缺乏使治理结果过度依赖于数据拟合,阻碍了机器学习模型性能的提高和可通用性。
针对上述问题,研究团队通过分析各类现有材料数据数量治理方法存在的特性与共性问题,发现仅从特征量或样本量的角度进行数据数量治理难以保证机器学习模型有效挖掘出数据的隐含模式。研究团队提出了一种融合材料领域知识的数据数量治理流程,该流程由两部分组成:(1)数据数量检测模块,旨在以领域知识与数据双向驱动的方式动态监测数据是否存在需要治理的数量问题;(2)数据数量治理模块则提供特征数量(或模型参数量)治理、样本数量治理和协同治理的策略和方法,实现对数据数量的全面控制。同时,研究团队探讨了领域知识的获取与表征方法及其融入治理全过程的方式,以在领域知识的指导下实现数据数量的协同和精准治理。
得益于融合的材料领域知识,本研究为不同类型材料的数据数量治理提供可复制和可推广的框架与方法,辅助建立数据驱动的机器学习与知识驱动的符号计算相融合的新型人工智能理论和方法,为加速AI for Science助力新材料研发提供高质量数据获取方式与高精度模型构建方式。
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
- 
  2025年11月优质学术会议推荐 16
   - 
  2025年机器视觉、智能成像与模式识 392
   - 
  2025年第七届控制与机器人国际会议 576
   - 
  2025年智能光子学与应用技术国际学 1529
   - 
  2025年机械工程,新能源与电气技术 1790
   - 
  2025年计算机科学、图像分析与信号 2065
   - 
  2025年材料化学与燃料电池技术国际 1861
   - 
  2025年自动化前沿系统、智慧城市与 10-23
   - 
  2025年信息光学、遥感技术与机器视 10-23
   - 
  2025年数字人文、文化遗产与语言学 10-23
   - 
  2025年神经科学、生物信息学与智能 10-23
   - 
  2025年语言认知、人工智能与计算建 10-23
   - 
  2025年社会科学、应用语言学与人文 10-23
   - 
  2025年传统机械、动力学与智能装备 10-23
   - 
  2025年图像处理、物理建模与结构设 10-23
   
- 
  2025年两院院士增选有效候选人1145
 - 
  2025最新JCR分区及影响因子4758
 - 
  好学术:科研网址导航|学术头条分2033
 - 
  2025年国际期刊预警名单发布!1930
 - 
  2025年中科院期刊分区表重磅发8447
 - 
  中国科协《重要学术会议目录(205134
 - 
  吉林大学校长张希:学术会议中的提2840
 - 
  清华大学地学系阳坤课题组揭示全球10-20
 - 
  历史时期极端干旱灾害的数据评估和10-20
 - 
  “清华化学百年论坛:塑造化学的未10-20
 - 
  研究揭示植物激素独脚金内酯作为跨10-20
 - 
  清华大学联合研发的“46MW大容10-20
 - 
  清华大学(软件学院)-九疆电力建10-20
 - 
  中国农业大学土地学院马韫韬教授团10-20
 - 
  电子科技大学光电学院本科生在一区10-20
 
- 
  北京安贞医院动脉粥样硬化研究室 20973

 - 
  广东省康复医学会 21093

 - 
  天津飞音科技有限公司 8016

 - 
  大连交通大学 21051

 - 
  上海高登商业展览有限公司 21007

 - 
  佳平国际经济文化发展(北京)有限 18039

 - 
  北京国联视讯信息技术股份有限公司 8111

 - 
  高分子物理与化学国家重点实验室 21189

 - 
  中国民族卫生协会医院医师分会 23380

 - 
  工业和信息化部工业文化发展中心 24009

 - 
  平顶山市九九房地产开发有限公司 18033

 - 
  湖北武汉大学 18230

 - 
  GRESGDS 24117

 - 
  北京科技大学 23058

 - 
  上海容智能源科技有限公司 8207

 - 
  山东丽山大厦 22969

 - 
  RH 7967

 - 
  恒宝化工有限公司 21105

 - 
  HKSME 23124

 - 
  浙江大学华家池校区纳米技术研究院 21142

 
						
					 
					















 542












































						
						