“可解释、可通用的下一代人工智能方法”重大研究计划系列成果一 ——面向机器学习的材料数据量治理_科研信息_学术资讯

当前位置：首页 >> 学术资讯 >> 科研信息

第四届信息经济、数据建模与云计算国际学术会议（ICIDC 2025）

第七届光电科学与材料国际学术会议 (ICOSM 2025)

2025年计算智能与机器人国际学术会议（CIR 2025)

2025年智能计算与系统仿真国际会议(ICSS 2025)

第五届电子材料与信息工程国际学术会议 (EMIE 2025)

第二届教育人工智能国际学术会议（ISAIE 2025）

2025年先进半导体器件与集成技术国际学术会议（ASDIT 2025）

2025年地质、能源与油气勘探国际学术会议（GEOGE 2025）

第八届人文教育与社会科学国际学术会议（ICHESS 2025）

第二届信号处理与神经网络应用国际学术会议（SPNNA 2025）

第五届生物医学与生物信息工程国际学术会议 (ICBBE 2025)

第九届交通工程与运输系统国际学术会议（ICTETS 2025）

2025年低空经济论坛暨低空飞行技术与无人机应用国际学术会议（LEF & ICLU 2025）

2025年图像、信号处理与机器学习国际学术会议（ISPML 2025）

第三届算法、图像处理与机器视觉国际学术会议（AIPMV2025）

2025年人工智能、虚拟现实与交互设计国际学术会议(AIVRID 2025)

“可解释、可通用的下一代人工智能方法”重大研究计划系列成果一 ——面向机器学习的材料数据量治理

2024/03/28

图融合领域知识的数据量治理流程

　　在国家自然科学基金项目（批准号：92270124、52073169）等资助下，上海大学计算机工程与科学学院刘悦教授与材料科学与工程学院施思齐教授团队近期发展了一种融合领域知识的数据量治理流程，实现了样本量、特征/模型参数量的治理与协调，为加速新材料研发提供了高质量数据基础。研究成果以“面向机器学习的材料数据量治理（Data quantity governance for machine learning in materials science）”为题，于2023年5月1日发表在《国家科学评论》（National Science Review），论文链接：https://academic.oup.com/nsr/article/10/7/nwad125/7147579。

　　由于材料性能具有复杂的驱动机制且数据获取依赖于复杂的实验或劳动密集型的采集工作，使得材料数据通常具有高维特征空间与小样本量的特点，限制了机器学习模型性能的上限。虽然通过各种数据预处理或特征工程方法能够一定程度上解决数据中存在的数量问题，但这些实践仅通过单一视角针对单一任务且集中于纯数据驱动的方式实现。治理过程缺乏科学理论框架指导，同时材料领域知识的缺乏使治理结果过度依赖于数据拟合，阻碍了机器学习模型性能的提高和可通用性。

　　针对上述问题，研究团队通过分析各类现有材料数据数量治理方法存在的特性与共性问题，发现仅从特征量或样本量的角度进行数据数量治理难以保证机器学习模型有效挖掘出数据的隐含模式。研究团队提出了一种融合材料领域知识的数据数量治理流程，该流程由两部分组成：（1）数据数量检测模块，旨在以领域知识与数据双向驱动的方式动态监测数据是否存在需要治理的数量问题；（2）数据数量治理模块则提供特征数量（或模型参数量）治理、样本数量治理和协同治理的策略和方法，实现对数据数量的全面控制。同时，研究团队探讨了领域知识的获取与表征方法及其融入治理全过程的方式，以在领域知识的指导下实现数据数量的协同和精准治理。

　　得益于融合的材料领域知识，本研究为不同类型材料的数据数量治理提供可复制和可推广的框架与方法，辅助建立数据驱动的机器学习与知识驱动的符号计算相融合的新型人工智能理论和方法，为加速AI for Science助力新材料研发提供高质量数据获取方式与高精度模型构建方式。

版权声明：
文章来源国家自然科学基金委员会，分享只为学术交流，如涉及侵权问题请联系我们，我们将及时修改或删除。

相关学术资讯

清华大学集成电路学院任天令团队在仿生双通道语音识别方面取得新成果

我国学者在伟晶岩型锂矿床成矿机理方面取得进展

北京大学课题组与合作者利用观测约束全球变暖下各区域降水的气候预测

北京大学化学学院余志祥课题组发展[4+2]反应并对反应机理进行研究

见所未见！双侧双光子显微镜让极限成像深度“再下探”

2H-MoTe2二维半导体薄膜在任意表面的异质外延技术

北京大学王龙教授团队与海外合作者在时序网络领域取得进展

清华大学物理系杨乐仙课题组在准二维钼基氧化物研究中取得进展

清华大学生命学院时松海课题组揭示调控大脑新皮层神经元空间精细结构排布和环路组装新机制