我国学者在大语言模型安全领域取得进展
2025/06/03
图 JBShied框架架构图
在国家自然科学基金项目(批准号:62161160337,62132011,62441238)的资助下,武汉大学国家网络安全学院王骞教授团队在大语言模型安全领域取得进展,相关成果“JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation”发表在第34届USENIX Security Symposium(USENIX Security 2025)。
随着大语言模型(Large Language Models,LLMs)的广泛应用,其安全问题也逐渐引发关注。尽管现有安全对齐策略能够在一定程度上限制模型输出有害内容,但其仍然容易受到越狱攻击(Jailbreak Attacks)的威胁。这类攻击能够绕过模型的安全防护,诱导其生成不合规的有害内容,带来了显著的安全隐患。
针对这一问题,研究团队深入分析了越狱攻击的机制,并基于线性表示假说(Linear Representation Hypothesis,LRH)提出了一个创新越狱防御框架——JBShield(图)。该框架通过定义并分析两类关键概念:有毒概念(Toxic Concepts)和越狱概念(Jailbreak Concepts),揭示了越狱提示的独特机理。研究发现,大语言模型能够识别提示中的有害语义并激活有毒概念,但越狱提示通过激活越狱概念,将模型的输出从拒绝变为服从。
JBShield包括两个核心组件:越狱检测和越狱缓解。在检测阶段,该框架通过判断输入是否同时激活有毒概念和越狱概念来识别越狱提示;在缓解阶段,该框架通过增强有害概念并削弱越狱概念,调整模型的隐藏表示,从而确保输出内容的安全性。实验结果显示,JBShield在多个开源大语言模型上的平均越狱检测准确率达到95%,并将多种越狱攻击的平均成功率从61%降至2%。
本研究成果系统性地解析了越狱攻击的作用机制,在技术上突破了传统方法的局限性,为大语言模型的安全性研究提供了可解释的理论框架。同时,该成果的高防御等特性也可以提升大语言模型在敏感场景中的可靠性。
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2025年两院院士增选有效候选人116
-
2025最新JCR分区及影响因子2461
-
好学术:科研网址导航|学术头条分641
-
2025年国际期刊预警名单发布!770
-
2025年中科院期刊分区表重磅发4295
-
中国科协《重要学术会议目录(202964
-
吉林大学校长张希:学术会议中的提1619
-
2025年国自然正式放榜!08-27
-
SCI论文中的数据引用,如何避免08-15
-
EI核心期刊和普通期刊有什么本质08-15
-
国内期刊EI与核心有什么区别?三08-15
-
怎么查找前几年的EI期刊源?科研08-15
-
如何准确验证论文是否被SCI收录08-15
-
机械类EI期刊投稿全攻略:从实验08-15
-
SCI论文DOI号查找全攻略:学08-15
-
北京米嘉科技服务有限公司 8053
-
中华联合财产保险公司 17842
-
hksme 21192
-
上海同巨文化传播有限公司 8116
-
上海信息公司 2077
-
怀思会议 22925
-
南宁左江会展商务服务有限公司 17947
-
HKSME 23342
-
WILL 24093
-
VDAE 8099
-
湖北武汉古凡网络科技 24119
-
贵州省赤水市人民医院 8011
-
FEWFR 23977
-
Terrapinn Singap 21018
-
BIT 2335
-
北京中研行讯信息技术中心 20892
-
北京沃特咨询有限公司 8388
-
国防科学技术大学 20971
-
ALIBABA 24013
-
CC 8037