我国学者在大语言模型安全领域取得进展
2025/06/03
图 JBShied框架架构图
在国家自然科学基金项目(批准号:62161160337,62132011,62441238)的资助下,武汉大学国家网络安全学院王骞教授团队在大语言模型安全领域取得进展,相关成果“JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation”发表在第34届USENIX Security Symposium(USENIX Security 2025)。
随着大语言模型(Large Language Models,LLMs)的广泛应用,其安全问题也逐渐引发关注。尽管现有安全对齐策略能够在一定程度上限制模型输出有害内容,但其仍然容易受到越狱攻击(Jailbreak Attacks)的威胁。这类攻击能够绕过模型的安全防护,诱导其生成不合规的有害内容,带来了显著的安全隐患。
针对这一问题,研究团队深入分析了越狱攻击的机制,并基于线性表示假说(Linear Representation Hypothesis,LRH)提出了一个创新越狱防御框架——JBShield(图)。该框架通过定义并分析两类关键概念:有毒概念(Toxic Concepts)和越狱概念(Jailbreak Concepts),揭示了越狱提示的独特机理。研究发现,大语言模型能够识别提示中的有害语义并激活有毒概念,但越狱提示通过激活越狱概念,将模型的输出从拒绝变为服从。
JBShield包括两个核心组件:越狱检测和越狱缓解。在检测阶段,该框架通过判断输入是否同时激活有毒概念和越狱概念来识别越狱提示;在缓解阶段,该框架通过增强有害概念并削弱越狱概念,调整模型的隐藏表示,从而确保输出内容的安全性。实验结果显示,JBShield在多个开源大语言模型上的平均越狱检测准确率达到95%,并将多种越狱攻击的平均成功率从61%降至2%。
本研究成果系统性地解析了越狱攻击的作用机制,在技术上突破了传统方法的局限性,为大语言模型的安全性研究提供了可解释的理论框架。同时,该成果的高防御等特性也可以提升大语言模型在敏感场景中的可靠性。
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2025年11月优质学术会议推荐 16
-
2025年机器视觉、智能成像与模式识 392
-
2025年第七届控制与机器人国际会议 576
-
2025年智能光子学与应用技术国际学 1529
-
2025年机械工程,新能源与电气技术 1790
-
2025年计算机科学、图像分析与信号 2065
-
2025年材料化学与燃料电池技术国际 1861
-
2025年自动化前沿系统、智慧城市与 10-23
-
2025年信息光学、遥感技术与机器视 10-23
-
2025年数字人文、文化遗产与语言学 10-23
-
2025年神经科学、生物信息学与智能 10-23
-
2025年语言认知、人工智能与计算建 10-23
-
2025年社会科学、应用语言学与人文 10-23
-
2025年传统机械、动力学与智能装备 10-23
-
2025年图像处理、物理建模与结构设 10-23
-
2025年两院院士增选有效候选人1145
-
2025最新JCR分区及影响因子4758
-
好学术:科研网址导航|学术头条分2033
-
2025年国际期刊预警名单发布!1930
-
2025年中科院期刊分区表重磅发8447
-
中国科协《重要学术会议目录(205134
-
吉林大学校长张希:学术会议中的提2840
-
清华大学地学系阳坤课题组揭示全球10-20
-
历史时期极端干旱灾害的数据评估和10-20
-
“清华化学百年论坛:塑造化学的未10-20
-
研究揭示植物激素独脚金内酯作为跨10-20
-
清华大学联合研发的“46MW大容10-20
-
清华大学(软件学院)-九疆电力建10-20
-
中国农业大学土地学院马韫韬教授团10-20
-
电子科技大学光电学院本科生在一区10-20
-
广东工业大学可拓工程研究所 21023

-
广州计算机学会 8316

-
辽阳电视台辽阳广电中心 18060

-
上海浩韵文化传播有限公司 2124

-
AME2017组委会 21153

-
上海大学材料学院 21253

-
中国水利技术信息中心 2027

-
VERBI软件有限责任公司 8148

-
广东省唯港商务 18261

-
会议网会议网 18408

-
jieda 21192

-
海南师范大学体育学院 8050

-
北京艾尚国际展览有限公司 24152

-
深圳华南城网 23079

-
郑州金凌商贸有限公司 18143

-
IETP-Association 23534

-
哈尔滨工业大学管理学院 21076

-
北京彬丰文化有限公司 23040

-
武汉市caa主办方 18346

-
国际工学技术出版协会 24318

















660.jpg)












































