- 北京大学汇丰商学院赵泠箫助理教授 75
- sci论文投稿的六个步骤 34
- 《ANNALES DE PALE 49
- 了解历史建筑保护工程论文摘要写作 33
- 学术报告会 71
- 关于地理方面的著作出版有关地理位 52
- 论文署名不规范是指哪些情况引起的 46
- 投稿至国外的EI期刊通常需要遵循 72
- 专利发明人的位置到底是按照什么样 47
- 中国科大在单自旋量子体系中检验贾 149
- 一些优秀的论文题目,涵盖了不同领 43
- Brief Communicat 52
- 学术会议如何准备问题的相关建议 48
- 什么是webofscience 59
- 发表论文职称评定应该注意哪些问题 45
- 河海大学水利水电学院 1402
- 江西师范大学体育学院 20396
- 美国伊利诺伊理工学院 23385
- 中国针灸推拿协会 20389
- 武汉大学城市设计学院 22403
- DVSBE 1369
- 武汉扬帆四海文化传播有限公司 23412
- 陕西中医药医院 20385
- HKSME 23365
- 中商联数据委员会 20393
- 上海浔兴拉链制造 17381
- ssadfasdf 17388
- 浙江广厦建设职业技术学院 17420
- 航天长征火箭技术有限公司 7385
- 香港机械工程师协会 1374
- 深圳大学 7354
- 湖北经济学院 22406
- 《环球杂志》 20398
- 北京中工大厦 1379
- International As 7379
电子系研究团队在分布式机器学习的隐私安全关键技术领域取得进展
2024/04/07
分布式机器学习能够协同实际系统中分布在不同节点的数据和资源,通过节点间共享学习中间变量(如模型参数)进行模型训练。该技术具有去中心化的特性,一定程度上避免了数据集中存储带来的隐私风险,是目前面向隐私保护的主流机器学习方法。但是,随着研究深入,分布式机器学习也遇到了诸多挑战。当前分布式机器学习框架是利用各个节点数据分散性来实现数据隐私保护。节点原始数据的隐私与学习中共享变量具有高度相关性,已有研究工作证明了隐私数据能从共享的变量中被成功解码。因此,如何构建全过程与各环节隐私保护的分布式机器学习框架是当前数据安全领域的基础前沿课题。
然而,数据安全与处理效率之间的矛盾是一项永恒课题,随着分布式机器学习中的隐私保护增强,势必影响到机器学习的效率和效果,特别是在大规模参数模型的训练中,该矛盾尤其突出。一方面,机器学习模型规模增大,以及各个环节的隐私保护增强,节点间共享变量的通信资源和计算资源开销将成指数增加,成为制约大模型学习中一个主要瓶颈问题。另一方面,对于一些复杂原始数据,例如,强相关的图数据等,这些高度关联的原始数据分散在分布式学习框架中不同节点,通过分散数据的“去关联性”能实现隐私保护,但也损失了这些数据间的大量关联信息,极大降低了机器学习效果效率。现有方法假设了节点具有独立完备的数据并基于其内部特征进行学习,难以对跨节点间的强关联数据进行有效建模。如何解决图数据的“内生强关联性”与面向隐私保护的分布式学习“去关联性”之间的矛盾,提升强关联数据学习效果是一项具有高度挑战性的课题。
图1. 分布式机器学习隐私安全研究的系统性架构
针对面向隐私保护分布式机器学习中存在的前沿课题,清华大学电子系开源数据认知创新中心的研究团队开展了系统研究工作(研究的系统性架构如图1所示),取得了阶段性进展。研究团队创建了一套隐私增强分布式机器学习模型(方法如图2所示)。该模型采用差分隐私知识迁移的协同学习框架,实现分布式学习过程中“全过程”隐私保护,同时,提出了一种隐私安全可证明的模型有效训练方法,该方法攻克了在现有分布式机器学习模型直接应用差分隐私时学习效果断崖式下降的难题。在为分布式学习过程提供了有效、可证明的隐私安全保护的同时,最高提升了现有隐私保护机器学习方法84.2%的性能。针对分布式机器学习存在的“隐私性增强”与“模型学习效率”之间矛盾所带来的模型规模瓶颈问题,研究团队创建了一套面向隐私增强分布式架构高效模型训练方法(方法如图3所示)。在隐私增强的分布式学习模型的基础上,制定了一套基于“门徒效应”的双向知识蒸馏技术,提出了一套基于互学习约束的模型知识自适应压缩方法,突破了在增强隐私保护的机器学习过程中知识共享的效率瓶颈。实验结果证明,在大规模隐私增强的分布式学习模型中,该方法能将复杂模型的训练效率提升20倍。针对图数据分布式学习中存在的“强关联”与“去关联”之间的矛盾,研究团队提出了一套面向隐私增强分布式架构的复杂数据学习方法(方法如图4所示)。通过建立一种面向增强隐私保护的关联模型学习方法来实现“强关联性”图数据分布在各个节点“去关联”,同时,采用数据扩张机制来建模跨节点间数据的高阶关联信息。通过实际场景数据的实验证明,该框架能够有效挖掘分布式图数据间的关联,达到在没有隐私保护限制下最优关联建模效果的98.2%。
图2. 基于差分隐私知识迁移的分布式学习框架
图3. 基于双向知识蒸馏的高效分布式学习方法
图4. 基于数据扩张机制的图数据分布式学习方法
研究团队对面向隐私安全的分布式机器学习理论模型和关键技术开展系统性创新研究的同时,也在积极开展相关模型和方法在实际场景下的应用研究,先后在网络信息智能推荐、公共安全、智慧医疗等领域建立了相应数据隐私保护方案,解决了数据安全领域的国家和企业“急难盼”问题。相关研究成果在2022-2023年度发表了4篇《自然》(Nature)子刊论文,其中1篇论文入选《自然·通讯》(Nature Communications)期刊的亮点论文(Featured Articles,如图5所示)。
上述研究成果是在电子系开源数据认知创新中心的NGNLab研究团队黄永峰教授带领下,由张卫强、何亮副教授,博士生齐涛、武楚涵等骨干成员,联合微软亚洲研究院相关合作研究人员共同完成。研究成果也得到了科技部重点研发专项“网络大数据安全防护理论与方法”,国家自然科学基金委联合重点项目“云数据安全审计理论与新方法”和国家自然科学基金委重大项目“基于全维度数据的智能诊疗研究”等的支持。
图5. 团队成果入选《自然·通讯》(Nature Communications)亮点论文
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
北京大学生命科学学院高宁课题组揭示人源核糖体大亚基细胞核质内的成熟过程
物理学院李婧课题组与合作者基于红外长波辐射实现夜间气溶胶光学厚度反演
北京信息科学自动化系谢震团队提出环状RNA的可编程翻译调控策略实现目标细胞类型的精准识别
第四届计算机图形学、图像与虚拟化研究国际会议(ICCGIV 2024)(2024-05-17)
第九届机电控制技术与交通运输国际学术会议(ICECTT 2024)(2024-05-24)
2024年教育政策与实践研讨会(ICEPP 2024)(2024-05-24)
第三届机电一体化与机械工程国际会议(ICMME2024)(2024-05-24)
2024年电子器件、传感控制技术与光学机械工程国际学术会议(EDSCTOE 2024)(2024-05-25)
第十四届地质和地球物理学国际会议(ICGG 2024)(2024-05-31)
2024年食品工程与农业科学国际会议(ICFEAS 2024)(2024-06-02)
2024年第三届网络、通信与信息技术国际会议(CNCIT 2024)(2024-06-07)
第十届机械工程、材料和自动化技术国际会议(MMEAT 2024)(2024-06-21)
2024年先进机器人,自动化工程与机器学习国际会议(ARAEML 2024)(2024-06-28)
2024年第十三届网络、通信与计算国际会议(ICNCC 2024)(2024-12-20)
2024年第三届电子通信工程研讨会(WECE 2024)(2024-10-25)
2024教育技术、社会科学与计算机应用国际会议(ETSSCA 2024)(2024-5-30)
第五届机械工程与智能制造国际学术会议(MEIM 2024)(2024-7-26)
2024年数理基础科学、数据计算与应用国际学术会议(IACMBSDCA 2024)(2024-5-23)
2024年生物信息学与计算机科学国际会议(ICBCS 2024)(2024-5-30)
2024年第十届环境系统研究国际会议(ICESR 2024)(2024-8-20)
2024年第三届电力、控制与电气工程国际会议(PCEE 2024)(2024-9-20)
2024低碳发展、新闻与传播国际学术会议(ICLCDJC 2024)(2024-5-26)
2024年现代教育与社会发展国际学术会议(ICMESD 2024)(2024-5-20)