当前位置:首页 >> 学术资讯 >> 科研信息

电子系研究团队在分布式机器学习的隐私安全关键技术领域取得进展

2024/04/07

 分布式机器学习能够协同实际系统中分布在不同节点的数据和资源,通过节点间共享学习中间变量(如模型参数)进行模型训练。该技术具有去中心化的特性,一定程度上避免了数据集中存储带来的隐私风险,是目前面向隐私保护的主流机器学习方法。但是,随着研究深入,分布式机器学习也遇到了诸多挑战。当前分布式机器学习框架是利用各个节点数据分散性来实现数据隐私保护。节点原始数据的隐私与学习中共享变量具有高度相关性,已有研究工作证明了隐私数据能从共享的变量中被成功解码。因此,如何构建全过程与各环节隐私保护的分布式机器学习框架是当前数据安全领域的基础前沿课题。

然而,数据安全与处理效率之间的矛盾是一项永恒课题,随着分布式机器学习中的隐私保护增强,势必影响到机器学习的效率和效果,特别是在大规模参数模型的训练中,该矛盾尤其突出。一方面,机器学习模型规模增大,以及各个环节的隐私保护增强,节点间共享变量的通信资源和计算资源开销将成指数增加,成为制约大模型学习中一个主要瓶颈问题。另一方面,对于一些复杂原始数据,例如,强相关的图数据等,这些高度关联的原始数据分散在分布式学习框架中不同节点,通过分散数据的“去关联性”能实现隐私保护,但也损失了这些数据间的大量关联信息,极大降低了机器学习效果效率。现有方法假设了节点具有独立完备的数据并基于其内部特征进行学习,难以对跨节点间的强关联数据进行有效建模。如何解决图数据的“内生强关联性”与面向隐私保护的分布式学习“去关联性”之间的矛盾,提升强关联数据学习效果是一项具有高度挑战性的课题。

图1. 分布式机器学习隐私安全研究的系统性架构

针对面向隐私保护分布式机器学习中存在的前沿课题,清华大学电子系开源数据认知创新中心的研究团队开展了系统研究工作(研究的系统性架构如图1所示),取得了阶段性进展。研究团队创建了一套隐私增强分布式机器学习模型(方法如图2所示)。该模型采用差分隐私知识迁移的协同学习框架,实现分布式学习过程中“全过程”隐私保护,同时,提出了一种隐私安全可证明的模型有效训练方法,该方法攻克了在现有分布式机器学习模型直接应用差分隐私时学习效果断崖式下降的难题。在为分布式学习过程提供了有效、可证明的隐私安全保护的同时,最高提升了现有隐私保护机器学习方法84.2%的性能。针对分布式机器学习存在的“隐私性增强”与“模型学习效率”之间矛盾所带来的模型规模瓶颈问题,研究团队创建了一套面向隐私增强分布式架构高效模型训练方法(方法如图3所示)。在隐私增强的分布式学习模型的基础上,制定了一套基于“门徒效应”的双向知识蒸馏技术,提出了一套基于互学习约束的模型知识自适应压缩方法,突破了在增强隐私保护的机器学习过程中知识共享的效率瓶颈。实验结果证明,在大规模隐私增强的分布式学习模型中,该方法能将复杂模型的训练效率提升20倍。针对图数据分布式学习中存在的“强关联”与“去关联”之间的矛盾,研究团队提出了一套面向隐私增强分布式架构的复杂数据学习方法(方法如图4所示)。通过建立一种面向增强隐私保护的关联模型学习方法来实现“强关联性”图数据分布在各个节点“去关联”,同时,采用数据扩张机制来建模跨节点间数据的高阶关联信息。通过实际场景数据的实验证明,该框架能够有效挖掘分布式图数据间的关联,达到在没有隐私保护限制下最优关联建模效果的98.2%。

图2. 基于差分隐私知识迁移的分布式学习框架

图3. 基于双向知识蒸馏的高效分布式学习方法

图4. 基于数据扩张机制的图数据分布式学习方法

研究团队对面向隐私安全的分布式机器学习理论模型和关键技术开展系统性创新研究的同时,也在积极开展相关模型和方法在实际场景下的应用研究,先后在网络信息智能推荐、公共安全、智慧医疗等领域建立了相应数据隐私保护方案,解决了数据安全领域的国家和企业“急难盼”问题。相关研究成果在2022-2023年度发表了4篇《自然》(Nature子刊论文,其中1篇论文入选《自然·通讯》(Nature Communications期刊的亮点论文(Featured Articles,如图5所示)。

上述研究成果是在电子系开源数据认知创新中心的NGNLab研究团队黄永峰教授带领下,由张卫强、何亮副教授,博士生齐涛、武楚涵等骨干成员,联合微软亚洲研究院相关合作研究人员共同完成。研究成果也得到了科技部重点研发专项“网络大数据安全防护理论与方法”,国家自然科学基金委联合重点项目“云数据安全审计理论与新方法”和国家自然科学基金委重大项目“基于全维度数据的智能诊疗研究”等的支持。

图5. 团队成果入选《自然·通讯》(Nature Communications亮点论文




版权声明:
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议

2026年智慧交通与检测技术国际会议(ITDT 2026)(2026-03-25)

2026年第六届智能机器人系统国际会议(ISoIRS 2026)(2026-03-27)

2026年人工智能教育技术与数据科学国际学术会议(AIETDS 2026)(2026-03-27)

2026年IEEE第八届软件工程和计算机科学国际会议(CSECS 2026)(2026-04-17)

第十五届春季国际工程与技术大会 (SCET 2026)(2026-04-17)

2026年金融科技、创新与信息技术国际会议(2026-04-18)

2026年多尺度人工智能国际会议(MAI 2026)(2026-04-24)

第三届机器学习与智能计算国际学术会议(MLIC 2026)(2026-04-24)

2026 空天信息与产业创新国际学术研讨会暨第二届中国——塞尔维亚空天技术与产业应用研讨会(ISA3I 2026)(2026-04-24)

数字化教育系统与计算机科学国际学术会议(2026-04-24)

2026年第十届教育中的数字技术国际会议(ICDTE 2026)(2026-10-30)

2026年统计,算法与信息科学国际会议(ICSAIS 2026)(2026-4-27)

第三届计算机视觉、机器人与自动化工程国际学术会议(CRAE 2026)(2026-6-26)

2026年城市建设与经济发展国际会议(ICEDUC 2026)(2026-3-29)

2026年大数据与智慧城市国际会议(ICSCBD 2026)(2026-4-28)

2026年土木工程、建筑材料与智能建造国际会议(IEBMC 2026)(2026-4-28)

2026交通工程、桥梁建设与隧道工程国际会议(ICTBTE 2026)(2026-4-30)

2026社会医学、人工智能与公共卫生国际会议(SMAIPH 2026)(2026-3-30)

2026年智慧教育与人工智能国际学术会议(ICSEAI 2026)(2026-4-28)

2026年计算机网络、边缘计算与通信系统国际会议(INECC 2026)(2026-4-29)

小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。
综合推荐区

学术科研网址导航,430+站,定制学术书签

2026年第五届云计算、计算机视觉和图像处理.

2026年动力学与机械工程国际学术研讨会 (.

2026年IEEE第八届软件工程和计算机科学.

2026年第八届计算机图形学、图像与可视化国.

第八届信息科学、电气与自动化工程国际学术会议.

第三届机器学习与智能计算国际学术会议(MLI.

第六届自动化控制、算法与智能仿生国际学术会议.

2026 年第三届计算,机器学习与数据科学国.

第十三届先进制造技术与材料工程国际学术会议 .

第二届人工智能与产品设计国际学术会议 (AI.

2026年多尺度人工智能国际会议(MAI 2.

2026年量子计算与人工智能国际学术会议(I.

2026年第六届计算机视觉与模式分析国际学术.

第七届机械仪表与自动化国际学术会议(ICMI.

2026年第四届亚洲机器学习、算法与神经网络.

2026年第四届亚洲计算机视觉、图像处理与模.

2026年人工智能与数据挖掘国际学术会议(A.

2026年IEEE第七届计算,网络与物联网国.

2026年第五届网络、通信与信息技术国际会议.

2026年智能机器人与控制技术国际会议(CI.

2026年传感器技术、自动化与智能制造国际会.

2026年智能系统与计算国际会议 (ICIS.

2026年电子, 通信与计算机科学国际会议 .

2026年IEEE第三届先进机器人, 自动化.

2026年第七届控制, 机器人与智能系统国际.