当前位置:首页 >> 学术资讯 >> 科研信息

生成式AI内容安全检测与模型安全研究获进展

2026/04/20

生成式AI内容安全检测与模型安全研究获进展

文章导读
当你在为内容审核团队的低效而焦头烂额时,一条恶意模因可能正在三个小时内突破百万传播——传统检测方法根本追不上它的演化速度。中国科学院软件研究所最近公布的四项突破或许能打破这个困局:他们提出的RepMD方法能通过“攻击树”追溯有害内容的生成逻辑,检测精度达到81.1%;SAGE框架则用“仲裁庭”机制解决了短视频仇恨信息的多模态干扰难题,准确率最高提升21.23%。
— 内容由好学术AI分析文章内容生成,仅供参考。

近日,中国科学院软件研究所团队聚焦多模态有害内容识别、跨模态语义检索、大模型安全防护等问题,在生成式AI内容安全检测与模型安全研究方面取得系列进展。

针对网络模因有害内容隐蔽、且在形式、主题与时间上持续演化,研究提出了RepMD方法,依托攻击树理论构建设计理念图DCG,通过对历史有害模因进行设计步骤复现和图剪枝,提炼有害模因设计流程,并利用该图指导多模态大模型进行有害模因检测。这是从有害模因图的“设计理念”角度建模有害模因的生成逻辑,为溯源和分析恶意用户的攻击行为提供支撑。实验结果显示,RepMD检测精度达81.1%,在类型迁移与时间演化场景下均保持稳定性能。人工评估显示,该方法可提升审核效率,使单个模因的判别时间缩短15至30秒。

针对短视频中仇恨信息隐蔽性强、模态干扰问题,研究提出了从特征融合转向决策仲裁的SAGE框架。SAGE设计了相互解耦的模态专家网络,保留各模态的独立语义表达,并通过全局专家协商与实例级“仲裁庭”机制,根据证据显著性动态做出判断。在经典数据集上,SAGE优于现有主流框架,准确率提升6.64%至21.23%。

针对生成式检索语义区分能力不足、对齐偏置和闭集检索限制等问题,研究提出了SIGMA框架,构建了分层语义标识符体系。SIGMA通过多粒度层级标识符,保证图像表示的唯一性与语义一致性,并提出渐进式“语义内化”训练策略,引入语义软标签刻画细粒度图文对应关系,使模型具备对未见样本动态标识符分配的能力,实现开放集检索。在经典数据集上,SIGMA在Recall@1、5、10指标上分别提升10.65%、8.50%和7.00%。

针对大语言模型面临的提示注入攻击风险,研究提出了InstruCoT方法,构建多样化攻击数据合成机制,并引入指令级Chain-of-Thought微调策略,使模型能够显式识别、推理并拒绝恶意指令。研究从行为偏移、隐私泄露和有害输出三个维度进行实验评估。结果显示,InstruCoT在四种主流大模型上均优于基线方法,并在安全增强的同时保持了模型原有的实用性能。

相关论文被自然语言处理领域顶级会议ACL 2026接收。研究工作得到国家重点研发计划的支持。


版权声明:
文章来源软件研究所,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议

2026冶金工程、桥隧建设与土木工程国际会议(MEBTCCE 2026)(2026-04-30)

第四届绿色建筑国际会议(ICOGB 2026)(2026-05-08)

2026年先进航空航天技术与卫星应用国际学术会议 (AATSA 2026)(2026-05-15)

2026年第四届亚洲计算机视觉、图像处理与模式识别国际会议(CVIPPR 2026)(2026-05-22)

2026年物理学、核能科学与能源科学国际会议(ICPNSES 2026)(2026-05-24)

2026年第五届网络、通信与信息技术国际会议(CNCIT 2026)(2026-05-29)

第九届统计与数据科学国际研讨会(SDS)(2026-05-29)

第十届土木建筑与结构工程国际学术会议(I3CSE 2026)(2026-05-29)

第五届艺术设计与数字化技术国际学术会议(ADDT 2026)(2026-06-05)

第五届信号处理与通信安全国际学术会议(ICSPCS 2026)(2026-06-05)

2026年人文艺术、媒体信息和传播国际会议(HAMIC 2026)(2026-5-17)

2026教育技术、新媒体发展与信息化教育国际会议(ETMDIE 2026)(2026-5-12)

2026年机械工程与智能制造工艺国际会议(MEIMT 2026)(2026-5-28)

2026年产业数字化与经济发展国际学术会议(IDED 2026)(2026-5-16)

2026年生态旅游、产业经济与管理国际会议(IEIEM 2026)(2026-5-23)

2026年金融、贸易与经济管理国际会议(ICFTEM 2026)(2026-5-14)

2026年高性能计算与计算科学国际会议(HPCCS 2026)(2026-5-14)

2026年通信网络、计算机科学与信息安全国际会议(INCSS 2026)(2026-5-19)

2026年纳米化学、功能材料与先进制造国际会议(NFMAM 2026)(2026-5-25)

第七届智能设计国际会议(ICID 2026)(2026-9-18)

小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。