清华大学深圳国际研究生院江勇、夏树涛团队在深度学习的版权保护领域取得新进展
2024/04/10
数据集和模型是深度学习领域的两大核心要素,是其所有者的重要知识财产,具有重要的商业价值。高质量的公开数据集(例如开源数据集或正在售卖的商业数据集)是深度学习繁荣的一个重要因素。然而,由于这些数据集的公开特性,恶意用户很有可能在未经授权的情况下用其训练第三方商用模型,进而破坏数据集所有者的版权,给数据集的所有者造成巨大损失。此外,由于公开数据集的特性,现有的经典数据保护方法,例如加密、图像水印、差分隐私等,均不能直接用于保护公开数据集的版权。加密会破坏这些数据集的可用性,恶意用户只会发布其模型而不会发布其训练细节,因此防御者无法根据图像水印判断是否存在侵权行为,差分隐私需要操纵模型的训练流程。
近日,清华大学深圳国际研究生院江勇教授、夏树涛教授团队在深度学习的版权保护领域取得新进展。研究团队首次定义并研究了公开数据集的版权保护问题。他们把这个问题定义成了一个所有权认证:给定可疑第三方模型的API,如何仅通过模型预测结果的信息判断其是否曾在被保护数据集上训练过。因为攻击者并不会公开模型的训练细节,防御者仅能通过数据集水印的方式实现数据集的所有权认证。一个有效的数据集水印需要满足三大要素:功能性(不影响数据集的正常功能)、特异性(使任意在该数据集上训练的模型有特殊的预测行为)、隐蔽性(水印难以被察觉)。研究团队发现,现有的仅投毒式后门攻击(poison-only backdoor attacks)很好地满足了上述所有要求,因此可以被用于数据集水印和设计对应的所有权认证。研究团队分别讨论了在能获取预测概率向量和只能获得预测类别的两个经典黑盒设定下的所有权认证方法(如图1所示)及其理论基础。

图1.所提数据集所有权认证方法的流程示意图
在另一项研究中,研究团队首次提出并讨论了数据集所有权认证任务的无害化要求。他们重新审视了基于后门攻击的数据集所有权认证。他们认为,上述方法引入了新的安全威胁:攻击者可以通过模型中后门确定性地恶意操纵模型的输出(如图2所示)。这种引入的新安全威胁会造成数据集使用者对提供者的不信任和潜在的安全风险,进而阻碍该方法的实际使用。他们认为,现有后门攻击的威胁主要来源于其有目标特性,即攻击者可以确定性地操作被攻击模型的输出。基于上述理解和启发,研究团队探索如何设计无目标后门水印(Untargeted Backdoor Watermark),以及如何使用它进行无害和隐蔽的数据集所有权认证。

图2.现有基于后门攻击的数据集所有权认证过程和其有害性示意图
研究人员设计了两种无目标后门水印:标签不一致的无目标后门水印和标签一致的无目标后门水印。前者更加简单,而后者更加隐蔽。此外,研究人员也提供了标签一致的无目标后门水印方法设计的理论基础。
上述关于首次讨论和定义公开数据集的版权保护问题工作以“基于后门水印的黑盒数据集所有权认证”(Black-box Dataset Ownership Verification via Backdoor Watermarking)为题,发表于计算机安全领域的国际学术期刊《IEEE信息取证与安全》(IEEE Transactions on Information Forensics and Security)。该论文刊出后不久受到了《IEEE综览》(IEEE Spectrum)的专题新闻报道。清华大学深圳国际研究生院2020级计算机科学与技术专业博士生李一鸣为该论文的第一作者,西南交通大学副研究员杨雪和夏树涛为该论文的共同通讯作者。
上述关于首次讨论和提出数据集版权保护的无害化要求及其方法的工作以“无目标后门水印:通往无害和隐蔽的数据集版权保护”(Untargeted Backdoor Watermark: Towards Harmless and Stealthy Dataset Copyright Protection)为题,入选人工智能领域的国际学术会议神经信息处理系统大会(Annual Conference on Neural Information Processing Systems)。该论文也入选为前2%的口头报告(Oral Paper)。李一鸣和清华大学深圳国际研究生院2022级博士毕业生白杨为该论文的共同第一作者,白杨和夏树涛为该论文的共同通讯作者。
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年6月优质国际学术会议推荐 7
-
2026年第17届机械与航空航天工程 193
-
2026年先进航空航天技术与卫星应用 324
-
2026资源、化学化工与应用材料国际 1808
-
2026年图像处理与数字创意设计国际 1632
-
2026年机械工程,新能源与电气技术 6095
-
2026年材料科学、低碳技术与动力工 1819
-
2026年艺术、文化产业与数字媒体国 04-29
-
2026年智慧教育、教育研究与文化交 04-29
-
2026年数字社会、公共管理与经济学 04-29
-
2026 政务服务、数字治理与智慧城 04-28
-
2026 制冷技术、暖通设备与环境调 04-28
-
2026 轻工材料、绿色制造与循环利 04-28
-
2026 多语言智能、翻译技术与国际 04-28
-
2026 生物育种、生态种植与现代农 04-28
-
中国科协发布2025年《重要学术12
-
2026年新锐分区(原中科院期刊2595
-
2025年两院院士增选有效候选人4402
-
2025最新JCR分区及影响因子12342
-
好学术:科研网址导航|学术头条分5673
-
2025年国际期刊预警名单发布!5837
-
2025年中科院期刊分区表重磅发20812
-
吉林大学校长张希:学术会议中的提6954
-
二维超导迈斯纳效应探测研究获进展04-29
-
研究发现笼目超导体中多重范霍夫奇04-29
-
二氧化碳加氢制高碳烯烃与航煤馏分04-29
-
靶向特定蛋白互作界面抑制乙肝病毒04-29
-
研究揭示内源信使调控膜损伤与细胞04-29
-
科学家绘制大脑星形胶质细胞转录因04-29
-
上海交大Bio-X研究院石毅与合04-29
-
厦门精艺达翻译服务有限公司 2690

-
中国土木工程学会学术部 18403

-
易科学 23467

-
中国康复医学会 21636

-
英卓自动化技术有限公司 18181

-
上海会务组委会 18706

-
佛山市顺德区美的微波电器制造有限 23688

-
武汉青博盛学术服务有限公司 21485

-
AMRMT 23258

-
希沿医疗投资管理有限公司 18804

-
食品安全分析与检测教育部重点实验 18345

-
中国心胸血管麻醉学会 2730

-
北京理工大学自动化学院 21391

-
febm2017 24453

-
北京软数信息技术研究院 24622

-
澳門科技大學 2515

-
第五届中国民营经济高峰会 18240

-
武汉青博盛学术服务有限公司 2391

-
辽宁省医学会学术部 18366

-
中国商业经济应用与管理研究分会 23395





















916






































