当前位置:首页 >> 学术资讯 >> 科研信息

我国学者在大语言模型安全领域取得进展

2025/06/03

我国学者在大语言模型安全领域取得进展

图 JBShied框架架构图

  在国家自然科学基金项目(批准号:62161160337,62132011,62441238)的资助下,武汉大学国家网络安全学院王骞教授团队在大语言模型安全领域取得进展,相关成果“JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation”发表在第34届USENIX Security Symposium(USENIX Security 2025)。

  随着大语言模型(Large Language Models,LLMs)的广泛应用,其安全问题也逐渐引发关注。尽管现有安全对齐策略能够在一定程度上限制模型输出有害内容,但其仍然容易受到越狱攻击(Jailbreak Attacks)的威胁。这类攻击能够绕过模型的安全防护,诱导其生成不合规的有害内容,带来了显著的安全隐患。

  针对这一问题,研究团队深入分析了越狱攻击的机制,并基于线性表示假说(Linear Representation Hypothesis,LRH)提出了一个创新越狱防御框架——JBShield(图)。该框架通过定义并分析两类关键概念:有毒概念(Toxic Concepts)和越狱概念(Jailbreak Concepts),揭示了越狱提示的独特机理。研究发现,大语言模型能够识别提示中的有害语义并激活有毒概念,但越狱提示通过激活越狱概念,将模型的输出从拒绝变为服从。

  JBShield包括两个核心组件:越狱检测和越狱缓解。在检测阶段,该框架通过判断输入是否同时激活有毒概念和越狱概念来识别越狱提示;在缓解阶段,该框架通过增强有害概念并削弱越狱概念,调整模型的隐藏表示,从而确保输出内容的安全性。实验结果显示,JBShield在多个开源大语言模型上的平均越狱检测准确率达到95%,并将多种越狱攻击的平均成功率从61%降至2%。

  本研究成果系统性地解析了越狱攻击的作用机制,在技术上突破了传统方法的局限性,为大语言模型的安全性研究提供了可解释的理论框架。同时,该成果的高防御等特性也可以提升大语言模型在敏感场景中的可靠性。


版权声明:
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议

2025年无线通信、计算机网络与信号处理国际会议(ICWNSP 2025)(2025-06-12)

2025年第五届智能机器人与系统国际会议(ISoIRS 2025)(2025-06-13)

第十一届传感器、机电一体化和自动化系统国际学术研讨会(ISSMAS 2025)(2025-06-13)

国培基地|关于举办2025年初级、中级、高级技术经理人培训班的通知(6月线上)(2025-06-18)

第九届水动力学与能源电力系统国际学术会议(HEEPS 2025)(2025-06-20)

第六届电子通讯与人工智能国际学术会议(ICECAI 2025)(2025-06-20)

2025 年第三届通信,计算与人工智能国际会议 (CCCAI 2025)(2025-06-20)

第六届机械工程、智能制造与机电一体化学术会议(MEIMM2025)(2025-06-27)

第三届管理创新与经济发展国际学术会议(MIED 2025)(2025-06-27)

第十届电子技术和信息科学国际学术会议(ICETIS 2025)(2025-06-27)

2025年机器学习、图像处理与神经网络国际会议(ICMLIPN 2025)(2025-7-28)

2025年能源利用、电力与先进热力系统国际学术会议(EUEAPS 2025)(2025-7-10)

2025年结构工程学、土木与结构抗震国际学术会议(SECESRS 2025)(2025-6-22)

2025年工程管理、绿色建材与城市规划国际会议(EMGBMUP 2025)(2025-7-17)

2025年机器学习、计算机应用与智能传感国际会议(ISCAML 2025)(2025-7-25)

2025年智慧城市建筑与灾害防控技术国际会议(SCADPCT 2025)(2025-6-25)

2025年光学成像、精密仪器与测量控制国际会议(IOPIMC 2025)(2025-6-21)

2025高速公路、机电工程与智能制造国际会议(HMEEIM 2025)(2025-6-16)

2025法律、金融发展与管理创新国际会议(ICLFDMI 2025)(2025-7-15)

2025高分子材料与航空航天国际会议(ICPMA 2025)(2025-7-13)

小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。