生成式AI内容安全检测与模型安全研究获进展
2026/04/20
近日,中国科学院软件研究所团队聚焦多模态有害内容识别、跨模态语义检索、大模型安全防护等问题,在生成式AI内容安全检测与模型安全研究方面取得系列进展。
针对网络模因有害内容隐蔽、且在形式、主题与时间上持续演化,研究提出了RepMD方法,依托攻击树理论构建设计理念图DCG,通过对历史有害模因进行设计步骤复现和图剪枝,提炼有害模因设计流程,并利用该图指导多模态大模型进行有害模因检测。这是从有害模因图的“设计理念”角度建模有害模因的生成逻辑,为溯源和分析恶意用户的攻击行为提供支撑。实验结果显示,RepMD检测精度达81.1%,在类型迁移与时间演化场景下均保持稳定性能。人工评估显示,该方法可提升审核效率,使单个模因的判别时间缩短15至30秒。
针对短视频中仇恨信息隐蔽性强、模态干扰问题,研究提出了从特征融合转向决策仲裁的SAGE框架。SAGE设计了相互解耦的模态专家网络,保留各模态的独立语义表达,并通过全局专家协商与实例级“仲裁庭”机制,根据证据显著性动态做出判断。在经典数据集上,SAGE优于现有主流框架,准确率提升6.64%至21.23%。
针对生成式检索语义区分能力不足、对齐偏置和闭集检索限制等问题,研究提出了SIGMA框架,构建了分层语义标识符体系。SIGMA通过多粒度层级标识符,保证图像表示的唯一性与语义一致性,并提出渐进式“语义内化”训练策略,引入语义软标签刻画细粒度图文对应关系,使模型具备对未见样本动态标识符分配的能力,实现开放集检索。在经典数据集上,SIGMA在Recall@1、5、10指标上分别提升10.65%、8.50%和7.00%。
针对大语言模型面临的提示注入攻击风险,研究提出了InstruCoT方法,构建多样化攻击数据合成机制,并引入指令级Chain-of-Thought微调策略,使模型能够显式识别、推理并拒绝恶意指令。研究从行为偏移、隐私泄露和有害输出三个维度进行实验评估。结果显示,InstruCoT在四种主流大模型上均优于基线方法,并在安全增强的同时保持了模型原有的实用性能。
相关论文被自然语言处理领域顶级会议ACL 2026接收。研究工作得到国家重点研发计划的支持。
文章来源软件研究所,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年6月优质国际学术会议推荐 7
-
2026年第17届机械与航空航天工程 193
-
2026年先进航空航天技术与卫星应用 324
-
2026资源、化学化工与应用材料国际 1808
-
2026年图像处理与数字创意设计国际 1632
-
2026年机械工程,新能源与电气技术 6095
-
2026年材料科学、低碳技术与动力工 1819
-
2026年艺术、文化产业与数字媒体国 04-29
-
2026年智慧教育、教育研究与文化交 04-29
-
2026年数字社会、公共管理与经济学 04-29
-
2026 政务服务、数字治理与智慧城 04-28
-
2026 制冷技术、暖通设备与环境调 04-28
-
2026 轻工材料、绿色制造与循环利 04-28
-
2026 多语言智能、翻译技术与国际 04-28
-
2026 生物育种、生态种植与现代农 04-28
-
中国科协发布2025年《重要学术12
-
2026年新锐分区(原中科院期刊2595
-
2025年两院院士增选有效候选人4402
-
2025最新JCR分区及影响因子12342
-
好学术:科研网址导航|学术头条分5673
-
2025年国际期刊预警名单发布!5837
-
2025年中科院期刊分区表重磅发20812
-
吉林大学校长张希:学术会议中的提6954
-
二维超导迈斯纳效应探测研究获进展04-29
-
研究发现笼目超导体中多重范霍夫奇04-29
-
二氧化碳加氢制高碳烯烃与航煤馏分04-29
-
靶向特定蛋白互作界面抑制乙肝病毒04-29
-
研究揭示内源信使调控膜损伤与细胞04-29
-
科学家绘制大脑星形胶质细胞转录因04-29
-
上海交大Bio-X研究院石毅与合04-29
-
湖北武汉大学 18352

-
上海茂发会展服务有限公司 23508

-
武汉弘陌 23197

-
AME2017组委会 2357

-
The Right Spin P 21433

-
南京航空航天大学 21515

-
HKSME 21193

-
临沂师范学院 21404

-
CSDUVYBV 21203

-
湖南大学电气与信息工程学院 24657

-
北京宣武区马连道 23153

-
MJHVJ 24674

-
University 2435

-
世全通会展公司 18278

-
iwmsme2017 organ 24276

-
国际工学技术出版协会 2339

-
武汉智能计算及通信与控制学会 8463

-
上海博蔚会展有限公司 21157

-
励鸿展览(上海)有限公司 9041

-
黑鹰cosmos 18348




















33







































