我国学者在大语言模型安全领域取得进展
2025/06/03
图 JBShied框架架构图
在国家自然科学基金项目(批准号:62161160337,62132011,62441238)的资助下,武汉大学国家网络安全学院王骞教授团队在大语言模型安全领域取得进展,相关成果“JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation”发表在第34届USENIX Security Symposium(USENIX Security 2025)。
随着大语言模型(Large Language Models,LLMs)的广泛应用,其安全问题也逐渐引发关注。尽管现有安全对齐策略能够在一定程度上限制模型输出有害内容,但其仍然容易受到越狱攻击(Jailbreak Attacks)的威胁。这类攻击能够绕过模型的安全防护,诱导其生成不合规的有害内容,带来了显著的安全隐患。
针对这一问题,研究团队深入分析了越狱攻击的机制,并基于线性表示假说(Linear Representation Hypothesis,LRH)提出了一个创新越狱防御框架——JBShield(图)。该框架通过定义并分析两类关键概念:有毒概念(Toxic Concepts)和越狱概念(Jailbreak Concepts),揭示了越狱提示的独特机理。研究发现,大语言模型能够识别提示中的有害语义并激活有毒概念,但越狱提示通过激活越狱概念,将模型的输出从拒绝变为服从。
JBShield包括两个核心组件:越狱检测和越狱缓解。在检测阶段,该框架通过判断输入是否同时激活有毒概念和越狱概念来识别越狱提示;在缓解阶段,该框架通过增强有害概念并削弱越狱概念,调整模型的隐藏表示,从而确保输出内容的安全性。实验结果显示,JBShield在多个开源大语言模型上的平均越狱检测准确率达到95%,并将多种越狱攻击的平均成功率从61%降至2%。
本研究成果系统性地解析了越狱攻击的作用机制,在技术上突破了传统方法的局限性,为大语言模型的安全性研究提供了可解释的理论框架。同时,该成果的高防御等特性也可以提升大语言模型在敏感场景中的可靠性。
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
好学术:科研网址导航|学术头条分219
-
《时代技术》投稿全攻略:一位审稿221
-
2025年国际期刊预警名单发布!349
-
2025年中科院期刊分区表重磅发3013
-
中科院已正式发布2024年预警期588
-
2025年度国家自然科学基金项目497
-
中国科协《重要学术会议目录(201657
-
2024年国家自然科学基金项目评881
-
2024年JCR影响因子正式发布853
-
吉林大学校长张希:学术会议中的提1078
-
【院校速递】今日院校科研十大要闻06-06
-
《ANNALES MEDICO-06-06
-
《ANNALES POLONIC06-06
-
《ANNALES SCIENTI06-06
-
《ANNALES D ENDOC06-06
-
天津市仪器仪表学会 20854
-
西安海瑞特会议服务有限公司 17933
-
科严文化 1921
-
上海龙润公司 1884
-
zkppp 8052
-
辽河油田公司勘探开发研究院 21223
-
ICRESG 20817
-
北京文化与产业文化研究所 23001
-
全球科技论坛 23929
-
北京交通大学土木建筑工程学院 20845
-
iwebm2017 organi 23813
-
中国园艺学会 17868
-
武汉理工大学 23980
-
IAASE 21060
-
第十届(2017年)中国金融评论 23862
-
亚太科学与工程研究所 22977
-
北京金奖杯工艺品有限公司 20890
-
东北师范大学 20921
-
西安科技大学 23050
-
上海邦临软件工程技术有限公司 18010