我国学者在大语言模型安全领域取得进展_科研信息_学术资讯_学术会议网站-学术会议在线-学术会议云

当前位置：首页 >> 学术资讯 >> 科研信息

2026年传感器技术、自动化与智能制造国际会议（STAIM 2026）

第十一届材料科学与工程国际学术会议(ISAMSE 2026）

第二届导航、检测与控制国际学术会议（CNDC 2026)

第三届图像处理、多媒体技术与机器学习国际学术会议（IPMML 2026）

2026年智能医学与图像计算国际会议 (IMIC 2026)

第三届虚拟现实、图像和信号处理国际学术会议（VRISP 2026）

2026年具身智能、机器人与控制系统国际学术会议（EIRCS 2026）

第五届信息经济、数据建模与云计算国际学术会议（ICIDC 2026）

第三届数字媒体、通信与信息系统国际学术会议（DMCIS 2026）

2026年智能机器人与控制技术国际会议（CIRCT 2026）

第五届机械电子工程与人工智能国际学术会议（MEAI 2026）

第六届先进制造技术与电子信息国际学术会议（AMTEI 2026）

第十一届计算机与信息处理技术国际学术研讨会（ISCIPT 2026）

第三届大数据、神经网络与深度学习研讨会（BDNNDL 2026）

第六届计算机视觉、应用与算法国际学术会议（CVAA 2026）

2026年IEEE计算机通信、信息系统与网络安全国际会议(CCISC 2026)

2026年第五届算法、数据挖掘和信息技术国际会议(ADMIT 2026)

2026年人工智能与机器人系统国际会议(ICAIRS 2026)

2026年IEEE人工智能、大数据与云计算国际会议 (AIBDCC 2026)

2026年IEEE第二届电力与可持续能源技术国际会议(PSETC 2026)

我国学者在大语言模型安全领域取得进展

2025/06/03

图 JBShied框架架构图

　　在国家自然科学基金项目（批准号：62161160337，62132011，62441238）的资助下，武汉大学国家网络安全学院王骞教授团队在大语言模型安全领域取得进展，相关成果“JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation”发表在第34届USENIX Security Symposium（USENIX Security 2025）。

　　随着大语言模型（Large Language Models，LLMs）的广泛应用，其安全问题也逐渐引发关注。尽管现有安全对齐策略能够在一定程度上限制模型输出有害内容，但其仍然容易受到越狱攻击（Jailbreak Attacks）的威胁。这类攻击能够绕过模型的安全防护，诱导其生成不合规的有害内容，带来了显著的安全隐患。

　　针对这一问题，研究团队深入分析了越狱攻击的机制，并基于线性表示假说（Linear Representation Hypothesis，LRH）提出了一个创新越狱防御框架——JBShield（图）。该框架通过定义并分析两类关键概念：有毒概念（Toxic Concepts）和越狱概念（Jailbreak Concepts），揭示了越狱提示的独特机理。研究发现，大语言模型能够识别提示中的有害语义并激活有毒概念，但越狱提示通过激活越狱概念，将模型的输出从拒绝变为服从。

　　JBShield包括两个核心组件：越狱检测和越狱缓解。在检测阶段，该框架通过判断输入是否同时激活有毒概念和越狱概念来识别越狱提示；在缓解阶段，该框架通过增强有害概念并削弱越狱概念，调整模型的隐藏表示，从而确保输出内容的安全性。实验结果显示，JBShield在多个开源大语言模型上的平均越狱检测准确率达到95%，并将多种越狱攻击的平均成功率从61%降至2%。

　　本研究成果系统性地解析了越狱攻击的作用机制，在技术上突破了传统方法的局限性，为大语言模型的安全性研究提供了可解释的理论框架。同时，该成果的高防御等特性也可以提升大语言模型在敏感场景中的可靠性。

版权声明：
文章来源国家自然科学基金委员会，分享只为学术交流，如涉及侵权问题请联系我们，我们将及时修改或删除。

我国学者与国外学者合作在解析抗结核分枝杆菌靶标研究方面取得新进展

北京大学物理学院马仁敏研究员课题组实现基于模式耦合光场局域化机制的魔角激光器

研究发现柔性金属薄膜磁性调控新维度

复旦大学联合浙江大学团队在胎儿无创产前筛查技术研究方面取得进展

清华大学化工系陆奇团队合作在电催化氧化合成尿素领域取得新进展

深圳国际研究生院康飞宇、翟登云团队合作在普鲁士蓝正极材料的合成与结构设计方面取得系列进展

研究发现大脑皮层双梯度组织规律

清华大学和中国人民解放军总医院在抗炎治疗研究方面取得新进展

中国农业大学动科学院谯仕彦院士团队建立了非模式菌株实现抗菌肽生物制造平台为后续规模化生产和应用扫清了产量障碍

近期会议