工学院宋洁课题组研究成果入选Cell子刊Patterns封面文章,提出数据价值研究新范式
2024/06/17
随着数字经济的持续发展,数据已成为推动现代化经济建设的关键性资源。据预测,2025年全球数据资产总量将超过175ZB。在大数据的环境下,多层次、多尺度的价值关系尚未被完全发掘并应用。从根本上说,数据的价值源于对应用对象和研究任务的明确界定,而这些任务的执行效果则直接受制于多源异构数据的质量。高质量的数据样本可以显著提升学习性能和任务的完成度,反之弱因果关系或无关数据可能削弱学习的准确性。尽管信息熵、离群值诊断和Shapley值等模式化方法已广泛用于数据特征的优化与价值评估,然而难以准确反映数据在不同任务需求下的差异性贡献。因此,亟需在统计学与经济学的基础上,研发出场景驱动的数据价值评估体系,以灵活地解析多源异构数据在复杂任务中的价值实现机制,为数据资源的智能化使用提供科学基础。

图1 相关成果入选Cell旗下Patterns期刊封面文章
5月10日,北京大学工学院宋洁课题组在数据科学权威期刊Cell子刊Patterns发表了题为“Unveiling Value Patterns via Deep Reinforcement Learning in Heterogeneous Data Analytics”的研究论文,并入选当期封面文章。该研究提出了一种新型智能化数据价值研究范式,通过结合深度学习技术,构建了多源异构数据的标准化价值输出模型;基于强化学习理论,实现了针对任务效用的参数更新算法。针对监督式数据价值计算中存在的不可微分性、采样效率低和次优性等问题,研究团队提出了一个整合惩罚项的近端策略优化算法,有效解决了算法收敛性差的瓶颈,实现了在各种场景下数据价值的精确识别。具体针对学习类模型的训练任务而言,该范式能有效地识别出高/低质量的训练数据,筛选出高质量数据集以显著提升模型效能。研究还深入探讨了包括模式迁移性在内的数据价值深层规律,为智能化数据分析与数据系统决策领域提供了新的视角和方法。

图2 一种创新的数据价值研究范式,系统地从价值测算到模式分析,逐层解析数据在任务中的价值作用及其规律
为验证所提出的学习式数据价值评估方法(Learning-based Data Valuation,LDV)的适用性,研究选择了多个跨领域的数据集,并设计了相应的分析模型及评价指标。任务涵盖了基于人口普查数据的收入分类评级、森林火灾规模预测、个体肥胖水平评估,以及心力衰竭患者的临床特征分析。实验结果表明,相较于传统方法,LDV在移除低/高价值数据后对提高任务效能表现出更显著的正/负向影响,证明了其在识别各种任务中数据的复杂价值模式的精确性。

图3 本图展示了学习式数据价值评估方法(LDV)相较于传统的Shapley值法(SV)和留一法(LOO),在不同任务中数据价值规律的精准与高效解析。ABCD分别顺序代表上述四个任务,E展示了各方法在计算效率上的对比
进而,以日前24小时风电预测为任务,该研究系统分析了我国省级数值气象与风电功率时间序列的数据价值分布规律。研究通过探究在移除等量高/低价值数据后,各省风电预测精度变化的差异,开发了一种评估数据价值敏感性的方法。研究结合地理气候因素及价值分布特征,提出了我国从西南至东北的数据价值敏感性“地理带”的区域性数据治理策略,以优化能源大数据系统决策并提高决策精确性。

图4 我国省级可再生能源数据的价值模式及敏感性分析
该研究开发了一种普适性的数据价值评估方法,首次实现了跨领域数据价值的精确测算,旨在通过智能化手段实现数据资源的价值化解析和针对性使用。基于价值模式的进一步分析,该研究成果有望在多领域推动数据驱动的价值实现,并为大数据治理提供政策建议。宋洁课题组博士研究生王衍之为该论文第一作者,通讯作者为宋洁和大数据国家工程实验室王剑晓,合作者包括工学院高锋。该研究得到了国家重点研发计划和国家自然科学基金的支持。
文章来源北京大学新闻网,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年第五届机器学习、云计算与智 26
-
2026年第二届计算机视觉与机器学习 627
-
2026年6月优质国际学术会议推荐 1157
-
2026年智慧教育与数据挖掘国际学术 813
-
2026年第11届生物医学信号与图像 697
-
2026资源、化学化工与应用材料国际 2559
-
2026年图像处理与数字创意设计国际 2369
-
2026年机械工程,新能源与电气技术 6849
-
2026年材料科学、低碳技术与动力工 2524
-
2026年海洋科学、水利工程与环境管 06-18
-
2026年环境工程、材料科学与循环经 06-18
-
2026年航空动力、流体力学与热物理 06-18
-
2026年地球化学、核物理与地质学国 06-18
-
2026年微机电、物理学与建模仿真国 06-18
-
2026年机械工程、电子技术与自动化 06-18
-
2026 JCR影响因子正式发布272
-
中国科协发布2025年《重要学术858
-
2026年新锐分区(原中科院期刊5648
-
2025年两院院士增选有效候选人5280
-
好学术:科研网址导航|学术头条分6842
-
2025年国际期刊预警名单发布!7028
-
2025年中科院期刊分区表重磅发24788
-
吉林大学校长张希:学术会议中的提8093
-
研究表明太阳耀斑终端激波可作为地06-24
-
研究揭示藻—菌共生体系强化养殖尾06-24
-
双功能手性双核镍催化研究获进展06-24
-
研究发现银河系中心极端环境下大质06-24
-
废塑料升级利用研究取得进展06-24
-
硒太阳能电池研究取得进展06-24
-
南京大学王涛团队首次发现110亿06-24
-
上海万怡会展管理股份有限公司 8383

-
APISE 23459

-
北京爱德迈德广告有限公司 8457

-
上海东瀚展览服务有限公司 8520

-
北京中天紫微教育科技有限公司 18450

-
第十三届"分布式计算及其应用"国 24306

-
清华大学经济管理学院 18409

-
汕头大学 8355

-
兰州大学资源环境学院 21576

-
深圳中山泌尿外科医院 23393

-
广州计算机学会 8662

-
北京艾尚国际展览有限公司 8323

-
广州市金晔展览有限公司 2330

-
广西先进文化发展促进会 23441

-
百奥泰国际会议(大连)有限公司 21297

-
HKISAR 24585

-
南京医格尔信息科技有限公司 21555

-
北京人民大会堂 21517

-
北京华林格环保袋制品有限公司 23298

-
河北工业大学 22060





















575









































