我国学者在大语言模型安全领域取得进展_科研信息_学术资讯_学术会议网站-学术会议在线-学术会议云

当前位置：首页 >> 学术资讯 >> 科研信息

第四届信息经济、数据建模与云计算国际学术会议（ICIDC 2025）

第七届光电科学与材料国际学术会议 (ICOSM 2025)

2025年计算智能与机器人国际学术会议（CIR 2025)

2025年智能计算与系统仿真国际会议(ICSS 2025)

第五届电子材料与信息工程国际学术会议 (EMIE 2025)

第二届教育人工智能国际学术会议（ISAIE 2025）

2025年先进半导体器件与集成技术国际学术会议（ASDIT 2025）

2025年地质、能源与油气勘探国际学术会议（GEOGE 2025）

第八届人文教育与社会科学国际学术会议（ICHESS 2025）

第二届信号处理与神经网络应用国际学术会议（SPNNA 2025）

第五届生物医学与生物信息工程国际学术会议 (ICBBE 2025)

第九届交通工程与运输系统国际学术会议（ICTETS 2025）

2025年低空经济论坛暨低空飞行技术与无人机应用国际学术会议（LEF & ICLU 2025）

2025年图像、信号处理与机器学习国际学术会议（ISPML 2025）

第三届算法、图像处理与机器视觉国际学术会议（AIPMV2025）

2025年人工智能、虚拟现实与交互设计国际学术会议(AIVRID 2025)

我国学者在大语言模型安全领域取得进展

2025/06/03

图 JBShied框架架构图

　　在国家自然科学基金项目（批准号：62161160337，62132011，62441238）的资助下，武汉大学国家网络安全学院王骞教授团队在大语言模型安全领域取得进展，相关成果“JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation”发表在第34届USENIX Security Symposium（USENIX Security 2025）。

　　随着大语言模型（Large Language Models，LLMs）的广泛应用，其安全问题也逐渐引发关注。尽管现有安全对齐策略能够在一定程度上限制模型输出有害内容，但其仍然容易受到越狱攻击（Jailbreak Attacks）的威胁。这类攻击能够绕过模型的安全防护，诱导其生成不合规的有害内容，带来了显著的安全隐患。

　　针对这一问题，研究团队深入分析了越狱攻击的机制，并基于线性表示假说（Linear Representation Hypothesis，LRH）提出了一个创新越狱防御框架——JBShield（图）。该框架通过定义并分析两类关键概念：有毒概念（Toxic Concepts）和越狱概念（Jailbreak Concepts），揭示了越狱提示的独特机理。研究发现，大语言模型能够识别提示中的有害语义并激活有毒概念，但越狱提示通过激活越狱概念，将模型的输出从拒绝变为服从。

　　JBShield包括两个核心组件：越狱检测和越狱缓解。在检测阶段，该框架通过判断输入是否同时激活有毒概念和越狱概念来识别越狱提示；在缓解阶段，该框架通过增强有害概念并削弱越狱概念，调整模型的隐藏表示，从而确保输出内容的安全性。实验结果显示，JBShield在多个开源大语言模型上的平均越狱检测准确率达到95%，并将多种越狱攻击的平均成功率从61%降至2%。

　　本研究成果系统性地解析了越狱攻击的作用机制，在技术上突破了传统方法的局限性，为大语言模型的安全性研究提供了可解释的理论框架。同时，该成果的高防御等特性也可以提升大语言模型在敏感场景中的可靠性。

版权声明：
文章来源国家自然科学基金委员会，分享只为学术交流，如涉及侵权问题请联系我们，我们将及时修改或删除。

相关学术资讯

清华大学电子系方璐团队在大规模光电智能计算方向取得进展

西安交大科研人员在锂电池回收领域实现正极材料修复再生新突破

北京大学生命科学学院季雄团队揭示亚细胞定位对RNA聚合酶III命运调控的决定性作用

清华大学化学系王泉明课题组合作创造金属团簇在近红外区发光量子产率新纪录

深圳国际研究生院任政儒及合作者在海上风机自动安装研究领域取得新进展

我国学者在耐水快速制备多肽聚合物方法方面取得进展

我国学者在肝脏急性中央静脉区损伤后再生机制研究方面取得进展

暨南大学关柏鸥教授团队在消化道血氧动力学监测光纤光声内窥镜方面取得进展

北京大学化学学院刘志伟课题组报道d-f跃迁稀土发光配合物在单发光层白光有机发光二极管中的应用