清华大学深圳国际研究生院江勇、夏树涛团队在深度学习的版权保护领域取得新进展
2024/04/10
数据集和模型是深度学习领域的两大核心要素,是其所有者的重要知识财产,具有重要的商业价值。高质量的公开数据集(例如开源数据集或正在售卖的商业数据集)是深度学习繁荣的一个重要因素。然而,由于这些数据集的公开特性,恶意用户很有可能在未经授权的情况下用其训练第三方商用模型,进而破坏数据集所有者的版权,给数据集的所有者造成巨大损失。此外,由于公开数据集的特性,现有的经典数据保护方法,例如加密、图像水印、差分隐私等,均不能直接用于保护公开数据集的版权。加密会破坏这些数据集的可用性,恶意用户只会发布其模型而不会发布其训练细节,因此防御者无法根据图像水印判断是否存在侵权行为,差分隐私需要操纵模型的训练流程。
近日,清华大学深圳国际研究生院江勇教授、夏树涛教授团队在深度学习的版权保护领域取得新进展。研究团队首次定义并研究了公开数据集的版权保护问题。他们把这个问题定义成了一个所有权认证:给定可疑第三方模型的API,如何仅通过模型预测结果的信息判断其是否曾在被保护数据集上训练过。因为攻击者并不会公开模型的训练细节,防御者仅能通过数据集水印的方式实现数据集的所有权认证。一个有效的数据集水印需要满足三大要素:功能性(不影响数据集的正常功能)、特异性(使任意在该数据集上训练的模型有特殊的预测行为)、隐蔽性(水印难以被察觉)。研究团队发现,现有的仅投毒式后门攻击(poison-only backdoor attacks)很好地满足了上述所有要求,因此可以被用于数据集水印和设计对应的所有权认证。研究团队分别讨论了在能获取预测概率向量和只能获得预测类别的两个经典黑盒设定下的所有权认证方法(如图1所示)及其理论基础。

图1.所提数据集所有权认证方法的流程示意图
在另一项研究中,研究团队首次提出并讨论了数据集所有权认证任务的无害化要求。他们重新审视了基于后门攻击的数据集所有权认证。他们认为,上述方法引入了新的安全威胁:攻击者可以通过模型中后门确定性地恶意操纵模型的输出(如图2所示)。这种引入的新安全威胁会造成数据集使用者对提供者的不信任和潜在的安全风险,进而阻碍该方法的实际使用。他们认为,现有后门攻击的威胁主要来源于其有目标特性,即攻击者可以确定性地操作被攻击模型的输出。基于上述理解和启发,研究团队探索如何设计无目标后门水印(Untargeted Backdoor Watermark),以及如何使用它进行无害和隐蔽的数据集所有权认证。

图2.现有基于后门攻击的数据集所有权认证过程和其有害性示意图
研究人员设计了两种无目标后门水印:标签不一致的无目标后门水印和标签一致的无目标后门水印。前者更加简单,而后者更加隐蔽。此外,研究人员也提供了标签一致的无目标后门水印方法设计的理论基础。
上述关于首次讨论和定义公开数据集的版权保护问题工作以“基于后门水印的黑盒数据集所有权认证”(Black-box Dataset Ownership Verification via Backdoor Watermarking)为题,发表于计算机安全领域的国际学术期刊《IEEE信息取证与安全》(IEEE Transactions on Information Forensics and Security)。该论文刊出后不久受到了《IEEE综览》(IEEE Spectrum)的专题新闻报道。清华大学深圳国际研究生院2020级计算机科学与技术专业博士生李一鸣为该论文的第一作者,西南交通大学副研究员杨雪和夏树涛为该论文的共同通讯作者。
上述关于首次讨论和提出数据集版权保护的无害化要求及其方法的工作以“无目标后门水印:通往无害和隐蔽的数据集版权保护”(Untargeted Backdoor Watermark: Towards Harmless and Stealthy Dataset Copyright Protection)为题,入选人工智能领域的国际学术会议神经信息处理系统大会(Annual Conference on Neural Information Processing Systems)。该论文也入选为前2%的口头报告(Oral Paper)。李一鸣和清华大学深圳国际研究生院2022级博士毕业生白杨为该论文的共同第一作者,白杨和夏树涛为该论文的共同通讯作者。
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年第八届计算机科学与技术在教 109
-
2026年3月高含金量国际学术会议合 88
-
2026资源、化学化工与应用材料国际 1265
-
2026年人工智能教育技术与数据科学 246
-
2026年图像处理与数字创意设计国际 1041
-
2026年机械工程,新能源与电气技术 5524
-
2026年材料科学、低碳技术与动力工 1312
-
2026年第二届无线与光通信国际会议 2080
-
第七届多组学科研与临床应用大会 02-05
-
2026年制药学、生物技术与植物学国 02-04
-
2026年节能技术、低碳发展与可持续 02-04
-
2026年导航控制、传感技术与卫星应 02-04
-
2026年经济转型与商业文化国际学术 02-04
-
2026年体育科学、运动健康与创新管 02-04
-
2026创意城市、设计与社区建设国际 02-04
-
2025年两院院士增选有效候选人4066
-
2025最新JCR分区及影响因子10070
-
好学术:科研网址导航|学术头条分5098
-
2025年国际期刊预警名单发布!5129
-
2025年中科院期刊分区表重磅发16711
-
中国科协《重要学术会议目录(2010250
-
吉林大学校长张希:学术会议中的提6245
-
bbrc期刊,bbrc期刊处于S02-03
-
siam期刊,siam期刊发的最02-03
-
了望期刊,瞭望期刊02-03
-
共享经济期刊,共享经济学术论文02-03
-
期刊代理网,从哪里找期刊代理02-03
-
light期刊,Light期刊综02-03
-
传承 期刊,传承期刊投稿点评02-03
-
期刊勘误,期刊勘误时会索要原始数02-03
-
中国北京网络公司 21207

-
富丽华大酒店 18177

-
北京日月辰科技发展集团 24250

-
教育部社科中心基础理论研究处 21225

-
WBM组委会 18407

-
百奥泰国际会议有限公司 24300

-
新疆医科大学 8212

-
上海市同济大学 23666

-
IAASE 21086

-
番禺理工学院 18275

-
北京东方比特科技有限公司 2439

-
WWX 23211

-
浙江大学电气工程学院 2215

-
湖南大学 2123

-
北京诺尔康生物科技有限公司 24212

-
清华大学出版社 24216

-
百奥泰国际会议(大连)有限公司 21213

-
北京万邦会展有限公司 21222

-
第二届新型材料与化学工业国际学术 24145

-
中国生态学学会专业委 18242

















836












































