当前位置:首页 >> 学术资讯 >> 科研信息

我国学者在大语言模型安全领域取得进展

2025/06/03

我国学者在大语言模型安全领域取得进展

图 JBShied框架架构图

  在国家自然科学基金项目(批准号:62161160337,62132011,62441238)的资助下,武汉大学国家网络安全学院王骞教授团队在大语言模型安全领域取得进展,相关成果“JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation”发表在第34届USENIX Security Symposium(USENIX Security 2025)。

  随着大语言模型(Large Language Models,LLMs)的广泛应用,其安全问题也逐渐引发关注。尽管现有安全对齐策略能够在一定程度上限制模型输出有害内容,但其仍然容易受到越狱攻击(Jailbreak Attacks)的威胁。这类攻击能够绕过模型的安全防护,诱导其生成不合规的有害内容,带来了显著的安全隐患。

  针对这一问题,研究团队深入分析了越狱攻击的机制,并基于线性表示假说(Linear Representation Hypothesis,LRH)提出了一个创新越狱防御框架——JBShield(图)。该框架通过定义并分析两类关键概念:有毒概念(Toxic Concepts)和越狱概念(Jailbreak Concepts),揭示了越狱提示的独特机理。研究发现,大语言模型能够识别提示中的有害语义并激活有毒概念,但越狱提示通过激活越狱概念,将模型的输出从拒绝变为服从。

  JBShield包括两个核心组件:越狱检测和越狱缓解。在检测阶段,该框架通过判断输入是否同时激活有毒概念和越狱概念来识别越狱提示;在缓解阶段,该框架通过增强有害概念并削弱越狱概念,调整模型的隐藏表示,从而确保输出内容的安全性。实验结果显示,JBShield在多个开源大语言模型上的平均越狱检测准确率达到95%,并将多种越狱攻击的平均成功率从61%降至2%。

  本研究成果系统性地解析了越狱攻击的作用机制,在技术上突破了传统方法的局限性,为大语言模型的安全性研究提供了可解释的理论框架。同时,该成果的高防御等特性也可以提升大语言模型在敏感场景中的可靠性。


版权声明:
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议

2025生物学、环境工程与清洁能源国际会议(ICBEECE 2025)(2025-09-05)

第七届 IEEE 能源、电力与电网国际学术会议(IEEE-ICEPG 2025)(2025-09-12)

2025环境、气候变化与生物科学国际会议(ECCBS 2025)(2025-09-13)

2025年第七届先进计算机科学,信息技术与通信国际会议(CSITC2025)(2025-09-19)

第十届机械制造技术与材料工程国际学术会议(MMTME 2025)(2025-09-19)

第九届交通工程与运输系统国际学术会议(ICTETS 2025)(2025-09-26)

第六届智能计算与人机交互国际研讨会(ICHCI 2025)(2025-09-26)

第五届机电一体化技术与航空航天工程国际学术会议(ICMTAE 2025)(2025-09-26)

2025年先进制造技术、机械工程与自动化国际会议(ICAMTMEA 2025)(2025-10-01)

2025-2026年科技计划项目申报和科技创新平台建设运行科研资金全过程管理使用高级研修班(苏州)(2025-10-22)

2025年材料工程、应用力学与纳米技术国际会议(IMEAN 2025)(2025-9-24)

2025年电子设备与信号处理国际会议(EDSP 2025)(2025-9-19)

2025年传统文化与考古学国际学术会议(ICTCA 2025)(2025-9-23)

2025年新能源科学、生态经济与绿色发展国际会议(NESEEGD 2025)(2025-9-17)

2025年航空航天工程、测量技术与仪器仪表国际会议(ICAEMTI 2025)(2025-10-20)

2025汉语言文学、美术教育与艺术管理学术会议(LLEAM 2025)(2025-9-25)

2025法学、社会发展与新媒体国际会议(ICLSDNM 2025)(2025-9-23)

2025年计算机视觉,先进算法与数据挖掘国际会议 (CVAADM 2025)(2025-10-27)

2025年社会经济与教育创新发展国际会议(ICIDSEE 2025)(2025-9-18)

2025年材料科学、新能源与电气技术国际会议(MSNEET 2025)(2025-10-28)

小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。