电子系研究团队在分布式机器学习的隐私安全关键技术领域取得进展
2024/04/07
分布式机器学习能够协同实际系统中分布在不同节点的数据和资源,通过节点间共享学习中间变量(如模型参数)进行模型训练。该技术具有去中心化的特性,一定程度上避免了数据集中存储带来的隐私风险,是目前面向隐私保护的主流机器学习方法。但是,随着研究深入,分布式机器学习也遇到了诸多挑战。当前分布式机器学习框架是利用各个节点数据分散性来实现数据隐私保护。节点原始数据的隐私与学习中共享变量具有高度相关性,已有研究工作证明了隐私数据能从共享的变量中被成功解码。因此,如何构建全过程与各环节隐私保护的分布式机器学习框架是当前数据安全领域的基础前沿课题。
然而,数据安全与处理效率之间的矛盾是一项永恒课题,随着分布式机器学习中的隐私保护增强,势必影响到机器学习的效率和效果,特别是在大规模参数模型的训练中,该矛盾尤其突出。一方面,机器学习模型规模增大,以及各个环节的隐私保护增强,节点间共享变量的通信资源和计算资源开销将成指数增加,成为制约大模型学习中一个主要瓶颈问题。另一方面,对于一些复杂原始数据,例如,强相关的图数据等,这些高度关联的原始数据分散在分布式学习框架中不同节点,通过分散数据的“去关联性”能实现隐私保护,但也损失了这些数据间的大量关联信息,极大降低了机器学习效果效率。现有方法假设了节点具有独立完备的数据并基于其内部特征进行学习,难以对跨节点间的强关联数据进行有效建模。如何解决图数据的“内生强关联性”与面向隐私保护的分布式学习“去关联性”之间的矛盾,提升强关联数据学习效果是一项具有高度挑战性的课题。

图1. 分布式机器学习隐私安全研究的系统性架构
针对面向隐私保护分布式机器学习中存在的前沿课题,清华大学电子系开源数据认知创新中心的研究团队开展了系统研究工作(研究的系统性架构如图1所示),取得了阶段性进展。研究团队创建了一套隐私增强分布式机器学习模型(方法如图2所示)。该模型采用差分隐私知识迁移的协同学习框架,实现分布式学习过程中“全过程”隐私保护,同时,提出了一种隐私安全可证明的模型有效训练方法,该方法攻克了在现有分布式机器学习模型直接应用差分隐私时学习效果断崖式下降的难题。在为分布式学习过程提供了有效、可证明的隐私安全保护的同时,最高提升了现有隐私保护机器学习方法84.2%的性能。针对分布式机器学习存在的“隐私性增强”与“模型学习效率”之间矛盾所带来的模型规模瓶颈问题,研究团队创建了一套面向隐私增强分布式架构高效模型训练方法(方法如图3所示)。在隐私增强的分布式学习模型的基础上,制定了一套基于“门徒效应”的双向知识蒸馏技术,提出了一套基于互学习约束的模型知识自适应压缩方法,突破了在增强隐私保护的机器学习过程中知识共享的效率瓶颈。实验结果证明,在大规模隐私增强的分布式学习模型中,该方法能将复杂模型的训练效率提升20倍。针对图数据分布式学习中存在的“强关联”与“去关联”之间的矛盾,研究团队提出了一套面向隐私增强分布式架构的复杂数据学习方法(方法如图4所示)。通过建立一种面向增强隐私保护的关联模型学习方法来实现“强关联性”图数据分布在各个节点“去关联”,同时,采用数据扩张机制来建模跨节点间数据的高阶关联信息。通过实际场景数据的实验证明,该框架能够有效挖掘分布式图数据间的关联,达到在没有隐私保护限制下最优关联建模效果的98.2%。

图2. 基于差分隐私知识迁移的分布式学习框架

图3. 基于双向知识蒸馏的高效分布式学习方法

图4. 基于数据扩张机制的图数据分布式学习方法
研究团队对面向隐私安全的分布式机器学习理论模型和关键技术开展系统性创新研究的同时,也在积极开展相关模型和方法在实际场景下的应用研究,先后在网络信息智能推荐、公共安全、智慧医疗等领域建立了相应数据隐私保护方案,解决了数据安全领域的国家和企业“急难盼”问题。相关研究成果在2022-2023年度发表了4篇《自然》(Nature)子刊论文,其中1篇论文入选《自然·通讯》(Nature Communications)期刊的亮点论文(Featured Articles,如图5所示)。
上述研究成果是在电子系开源数据认知创新中心的NGNLab研究团队黄永峰教授带领下,由张卫强、何亮副教授,博士生齐涛、武楚涵等骨干成员,联合微软亚洲研究院相关合作研究人员共同完成。研究成果也得到了科技部重点研发专项“网络大数据安全防护理论与方法”,国家自然科学基金委联合重点项目“云数据安全审计理论与新方法”和国家自然科学基金委重大项目“基于全维度数据的智能诊疗研究”等的支持。

图5. 团队成果入选《自然·通讯》(Nature Communications)亮点论文
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年第五届机器学习、云计算与智 26
-
2026年第二届计算机视觉与机器学习 627
-
2026年6月优质国际学术会议推荐 1157
-
2026年智慧教育与数据挖掘国际学术 813
-
2026年第11届生物医学信号与图像 697
-
2026资源、化学化工与应用材料国际 2559
-
2026年图像处理与数字创意设计国际 2369
-
2026年机械工程,新能源与电气技术 6849
-
2026年材料科学、低碳技术与动力工 2524
-
2026年海洋科学、水利工程与环境管 06-18
-
2026年环境工程、材料科学与循环经 06-18
-
2026年航空动力、流体力学与热物理 06-18
-
2026年地球化学、核物理与地质学国 06-18
-
2026年微机电、物理学与建模仿真国 06-18
-
2026年机械工程、电子技术与自动化 06-18
-
2026 JCR影响因子正式发布272
-
中国科协发布2025年《重要学术858
-
2026年新锐分区(原中科院期刊5648
-
2025年两院院士增选有效候选人5280
-
好学术:科研网址导航|学术头条分6842
-
2025年国际期刊预警名单发布!7028
-
2025年中科院期刊分区表重磅发24788
-
吉林大学校长张希:学术会议中的提8093
-
研究表明太阳耀斑终端激波可作为地06-24
-
研究揭示藻—菌共生体系强化养殖尾06-24
-
双功能手性双核镍催化研究获进展06-24
-
研究发现银河系中心极端环境下大质06-24
-
废塑料升级利用研究取得进展06-24
-
硒太阳能电池研究取得进展06-24
-
南京大学王涛团队首次发现110亿06-24
-
中汇(广州)国际会展有限公司 9177

-
东世展览服务(上海)有限公司 25116

-
上海冠通展览策划有限公司 18399

-
深圳市清新电源研究院 21553

-
IETP-Association 23904

-
中国化工学会培训中心 2383

-
万利达集团有限公司 21405

-
国际工学技术出版协会 24450

-
南京航空航天大学 24641

-
生物谷 23321

-
宁波索达电器有限公司 21256

-
中国科学院宁波材料所 18461

-
北京东方旅游公司 18423

-
迈海材料基因组国际研究院 23377

-
深圳市海伦温展览有限公司 21526

-
中国地质大学(武汉) 18502

-
FDAGWA 2359

-
山东大学 24666

-
江苏省医学会 21444

-
ACPEE 24733





















920









































