中国农业大学信电学院智能与系统安全实验室在大语言模型安全领域取得新进展
2026/04/25
近日,中国农业大学信息与电气工程学院智能与系统安全实验室,在大语言模型指纹领域、大语言模型后门领域的三篇研究论文被人工智能领域顶级会议2026-ACL(The 64th Annual Meeting of the Association for Computational Linguistics, CCF-A类会议)接收。
其中,《大语言模型隐式指纹方法》(Imf: Implicit fingerprint for large language models)和《大语言模型指纹抑制攻击方法》(Inhibitory Attacks on Backdoor-based Fingerprinting for Large Language Models)以main形式接收;《基于软标签机制和关键提取引导的大语言模型API后门防御方法》(SLIP: Soft Label Mechanism and Key-Extraction-Guided CoT-based Defense Against Instruction Backdoor in APIs)以findings形式接收。
《大语言模型隐式指纹方法》(Imf: Implicit fingerprint for large language models)针对目前显式指纹存在显著的语义差异导致的两大核心问题:容易被攻击者通过微调或模型合并等攻击手段去除;容易被系统级的“生成修订干预”攻击所屏蔽,导致验证失败)提出了隐式指纹(ImF),框架如图1所示。ImF不再依赖显式的标记,而是通过语言隐写术将所有权信息编码进自然流畅的目标回复中,并反向推导出与之语义一致的思维链查询。该方法旨在消除指纹行为与模型自然行为的边界,从而在保持模型通用能力的同时,实现黑盒下的鲁棒所有权验证。
图1 ImF方法架构图
《大语言模型指纹抑制攻击方法》首次探究了现有后门模型指纹方法在模型集成场景中的适用性,发现针对性的模型集成策略能在保留模型集成自身效用的前提下完全的抑制模型指纹的输出。基于此,本文提出了两种指纹响应抑制方法:Token Filter Attack(TFA)和Sentence Verification Attack(SVA),如图2所示。TFA利用指纹模型回答和普通模型回答之间的显著差异性,在每一步生成中,让子模型的top-K个候选token集合两两之间做交集以去除指纹token,然后对这些交集取并集以保证集成的效用。SVA利用指纹模型的指纹响应具有更高PPL的特性,让每一个子模型对其他模型生成的回答计算PPL并投票,最后选出得票高者为最终回答。
图2(a)TFA方法框图
图2(b)SVA方法框图
《基于软标签机制和关键提取引导的大语言模型API后门防御方法》针对大语言模型新型的指令后门攻击:攻击者可以将恶意指令嵌入系统提示中,在黑盒设置下悄悄操纵模型的预测。首先进行了两个试点实验以剖析指令后门攻击如何实现后门控制并揭示了两个关键规律:认知覆盖和异常语义相关性。并在此基础上提出了基于软标签机制和关键提取引导的后门防御,框架如图3所示。
图3 SLIP方法架构图
《大语言模型隐式指纹方法》的通讯作者为薛一鸣教授,2025级博士研究生吴家璇为第一作者;《大语言模型指纹抑制攻击方法》的通讯作者为彭万里副教授,2025级专业硕士研究生付航为第一作者;《基于软标签机制和关键提取引导的大语言模型API后门防御方法》通讯作者为文娟副教授,2024级博士研究生吴政娴为第一作者。
上述论文成果受到国家自然科学基金项目(No.62272463、No.62402117)的资助,本研究工作得到中国农业大学校级高性能计算平台支持。
文章来源中国农业大学,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年6月优质国际学术会议推荐 7
-
2026年第17届机械与航空航天工程 193
-
2026年先进航空航天技术与卫星应用 324
-
2026资源、化学化工与应用材料国际 1808
-
2026年图像处理与数字创意设计国际 1632
-
2026年机械工程,新能源与电气技术 6095
-
2026年材料科学、低碳技术与动力工 1819
-
2026年艺术、文化产业与数字媒体国 04-29
-
2026年智慧教育、教育研究与文化交 04-29
-
2026年数字社会、公共管理与经济学 04-29
-
2026 政务服务、数字治理与智慧城 04-28
-
2026 制冷技术、暖通设备与环境调 04-28
-
2026 轻工材料、绿色制造与循环利 04-28
-
2026 多语言智能、翻译技术与国际 04-28
-
2026 生物育种、生态种植与现代农 04-28
-
中国科协发布2025年《重要学术12
-
2026年新锐分区(原中科院期刊2595
-
2025年两院院士增选有效候选人4402
-
2025最新JCR分区及影响因子12342
-
好学术:科研网址导航|学术头条分5673
-
2025年国际期刊预警名单发布!5837
-
2025年中科院期刊分区表重磅发20812
-
吉林大学校长张希:学术会议中的提6954
-
二维超导迈斯纳效应探测研究获进展04-29
-
研究发现笼目超导体中多重范霍夫奇04-29
-
二氧化碳加氢制高碳烯烃与航煤馏分04-29
-
靶向特定蛋白互作界面抑制乙肝病毒04-29
-
研究揭示内源信使调控膜损伤与细胞04-29
-
科学家绘制大脑星形胶质细胞转录因04-29
-
上海交大Bio-X研究院石毅与合04-29
-
西安交通大学核科学与技术学院 24369

-
华中科技大学 21494

-
中国民族卫生协会 8196

-
InnovationEnterp 21514

-
上海浩韵文化传播有限公司 23398

-
中信国安第一城国际会展中心 18320

-
郑州译线通翻译有限公司 2654

-
中国医药化工网 24626

-
国防科大计算机学院 18648

-
百奥泰集团 24702

-
浙江广厦建设职业技术学院 18484

-
武汉奔诚文化传播有限公司 9078

-
同心学术联合会 21312

-
中国交通运输协会 21504

-
中国科学院计算技术研究所 23285

-
材料工程与应用国际会议 24558

-
温州大学建工学院 21384

-
广东深圳喜图印刷 21442

-
哈尔滨医科大学 2623

-
中国国际科技会议中心 22000




















28










































