当前位置:首页 >> 学术资讯 >> 科研信息

我国学者在大语言模型安全领域取得进展

2025/06/03

我国学者在大语言模型安全领域取得进展

图 JBShied框架架构图

  在国家自然科学基金项目(批准号:62161160337,62132011,62441238)的资助下,武汉大学国家网络安全学院王骞教授团队在大语言模型安全领域取得进展,相关成果“JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation”发表在第34届USENIX Security Symposium(USENIX Security 2025)。

  随着大语言模型(Large Language Models,LLMs)的广泛应用,其安全问题也逐渐引发关注。尽管现有安全对齐策略能够在一定程度上限制模型输出有害内容,但其仍然容易受到越狱攻击(Jailbreak Attacks)的威胁。这类攻击能够绕过模型的安全防护,诱导其生成不合规的有害内容,带来了显著的安全隐患。

  针对这一问题,研究团队深入分析了越狱攻击的机制,并基于线性表示假说(Linear Representation Hypothesis,LRH)提出了一个创新越狱防御框架——JBShield(图)。该框架通过定义并分析两类关键概念:有毒概念(Toxic Concepts)和越狱概念(Jailbreak Concepts),揭示了越狱提示的独特机理。研究发现,大语言模型能够识别提示中的有害语义并激活有毒概念,但越狱提示通过激活越狱概念,将模型的输出从拒绝变为服从。

  JBShield包括两个核心组件:越狱检测和越狱缓解。在检测阶段,该框架通过判断输入是否同时激活有毒概念和越狱概念来识别越狱提示;在缓解阶段,该框架通过增强有害概念并削弱越狱概念,调整模型的隐藏表示,从而确保输出内容的安全性。实验结果显示,JBShield在多个开源大语言模型上的平均越狱检测准确率达到95%,并将多种越狱攻击的平均成功率从61%降至2%。

  本研究成果系统性地解析了越狱攻击的作用机制,在技术上突破了传统方法的局限性,为大语言模型的安全性研究提供了可解释的理论框架。同时,该成果的高防御等特性也可以提升大语言模型在敏感场景中的可靠性。


版权声明:
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议

2026年先进航空航天技术与卫星应用国际学术会议 (AATSA 2026)(2026-05-15)

2026年第四届亚洲计算机视觉、图像处理与模式识别国际会议(CVIPPR 2026)(2026-05-22)

2026年物理学、核能科学与能源科学国际会议(ICPNSES 2026)(2026-05-24)

2026年第五届网络、通信与信息技术国际会议(CNCIT 2026)(2026-05-29)

第九届统计与数据科学国际研讨会(SDS)(2026-05-29)

第十届土木建筑与结构工程国际学术会议(I3CSE 2026)(2026-05-29)

第五届艺术设计与数字化技术国际学术会议(ADDT 2026)(2026-06-05)

第五届信号处理与通信安全国际学术会议(ICSPCS 2026)(2026-06-05)

第八届能源系统与电气电力国际学术会议(ICESEP 2026)(2026-06-05)

2026年智能机器人与控制技术国际会议(CIRCT 2026)(2026-06-12)

2026年绿色能源,可再生资源与储能国际会议(GERRES 2026)(2026-5-29)

2025年电子工程、微电子与集成电路国际会议(EEMIC 2025)(2026-6-21)

2026年社会学与教育改革国际会议(ICSER 2026)(2026-5-31)

2026年海洋工程、机器人与信息技术国际会议(OERIT 2026)(2026-5-28)

2026数字媒体艺术、设计与文化国际会议(ICDMADC 2026)(2026-6-24)

2026年智能仿生、机器学习与自主系统国际会议(IBMLA 2026)(2026-6-26)

2026年人工智能教育、智慧教育与教育信息化国际会议(ICFTRM 2026)(2026-6-17)

2026年数学、天文学与应用物理国际会议(ICAAPM 2026)(2026-5-23)

第六届计算机、遥感与航空航天国际学术会议(CRSA 2026)(2026-6-26)

2026仪器仪表、自动化与制造工程国际会议(IAME 2026)(2026-5-29)

小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。