北京大学林宙辰教授、张牧涵助理教授揭示知识图谱的“开世界假设”如何影响模型评估_科研信息_学术资讯

当前位置：首页 >> 学术资讯 >> 科研信息

2026年传感器技术、自动化与智能制造国际会议（STAIM 2026）

第十一届材料科学与工程国际学术会议(ISAMSE 2026）

第二届导航、检测与控制国际学术会议（CNDC 2026)

第三届图像处理、多媒体技术与机器学习国际学术会议（IPMML 2026）

2026年智能医学与图像计算国际会议 (IMIC 2026)

第三届虚拟现实、图像和信号处理国际学术会议（VRISP 2026）

2026年具身智能、机器人与控制系统国际学术会议（EIRCS 2026）

第五届信息经济、数据建模与云计算国际学术会议（ICIDC 2026）

第三届数字媒体、通信与信息系统国际学术会议（DMCIS 2026）

2026年智能机器人与控制技术国际会议（CIRCT 2026）

第五届机械电子工程与人工智能国际学术会议（MEAI 2026）

第六届先进制造技术与电子信息国际学术会议（AMTEI 2026）

第十一届计算机与信息处理技术国际学术研讨会（ISCIPT 2026）

第三届大数据、神经网络与深度学习研讨会（BDNNDL 2026）

第六届计算机视觉、应用与算法国际学术会议（CVAA 2026）

2026年IEEE计算机通信、信息系统与网络安全国际会议(CCISC 2026)

2026年第五届算法、数据挖掘和信息技术国际会议(ADMIT 2026)

2026年人工智能与机器人系统国际会议(ICAIRS 2026)

2026年IEEE人工智能、大数据与云计算国际会议 (AIBDCC 2026)

2026年IEEE第二届电力与可持续能源技术国际会议(PSETC 2026)

北京大学林宙辰教授、张牧涵助理教授揭示知识图谱的“开世界假设”如何影响模型评估

2024/04/15

近日，北京大学智能学院zero lab实验室林宙辰教授、博士生杨昊桐，北京大学人工智能研究院张牧涵助理教授合作在NeurIPS 2022发表Oral论文“Rethinking Knowledge Graph Evaluation Under the Open-World Assumption”，指出了当前的知识图谱补全度量标准可能会错误反映模型的强弱这一问题，给予了理论和实验上的验证，并提出了一些解决方案。

知识图谱是一类存储结构化信息的数据结构，其中事物之间的关联以事实三元组（triplet）的形式保存。例如，一个地理信息知识图谱中就可能包括中国、首都、北京，用以表示中国的首都是北京。

通过将实体表示为节点，三元组表示为一条有向边，可以将知识图谱表示为一个图，故名知识图谱。图片来源于网络

现有的知识图谱既有限定于某些具体领域的领域知识图谱，例如，医药知识图谱、地理知识图谱等，也有从网络维基百科中抽取的一般知识图谱。后者所包含的对象更多，关系更加复杂，较为知名的包括：YAGO知识图谱包括关于人物、城市、国家、组织和电影等的信息；WikiData则凭借着Wikipedia的广泛信息，拥有超过一亿个分属于不同类别的实体。

WikiData拥有超过一亿个对象的信息，图片来源：http://www.wikidata.org

知识图谱由于其结构化的存储方式，一个重要的应用是对知识进行自动推理。通过对存储信息的查询，知识图谱可以从某个实体出发，沿着某个特定的关系（谓词）寻找答案。这样的技术可以被用于问答系统、搜索引擎、专家系统等，为各类任务提供领域、常识和百科知识。

利用neo4j在知识图谱上进行可视化搜索

然而，由于知识图谱极大的规模和自动化生成的特点，其中可能存在信息缺失：即实际存在的事实可能没有被包含在知识图谱存储的三元组中。这种信息缺失将导致搜索无法得到完整的答案，影响知识图谱的应用。因此，知识图谱补全模型尝试通过在知识图谱的已有内容中进行学习，从而推理补充出知识图谱中缺失的事实。

某些缺失事实可以通过已标注事实推理补充，例如，总统的配偶即为第一夫人

注意到，知识图谱一般只会显式地记录正确事实，缺少对错误事实的标注。因此，考虑到知识图谱中存在缺失事实的情况，针对一条没有出现在记录中的三元组，使用者无法判断它属于不应被包含的错误事实，还是属于被遗漏的缺失事实。这被称为开世界假设（open-world assumption，OWA）。而这一假设的反面，被称为闭世界假设，则认为不存在的三元组必然对应于假事实。这对应于一个被完全构建的知识图谱。

开世界假设和闭世界假设的不同

在对知识图谱补全模型进行评估时，由于问题本身基于知识图谱非完全，应当使用开世界假设。然而，现有的评估流程都是基于闭世界假设的，即，对于没有包含在测试集中的答案，都判定为错误答案。因此，这里存在实际评估过程与采用假设的不匹配问题。本文指出这一不匹配可能会导致在现有的评估方法下，存在评估度量退化（degradation）和不一致（inconsistency）的现象。作者将其称之为开世界问题。

为了研究这一问题，作者通过将测试集中的事实缺失和训练模型的预测正确建模为两个随机事件，推导出在有缺失情况下的评估度量的期望随模型强度的变化。在可接受的误差范围内，作者证明了对于最常用的度量：平均倒数排名（mean reciprocal rank，MRR），其期望呈现为对模型强度的对数曲线。这会导致度量退化的问题：首先，对于能够完全预测正确的模型，评估度量的期望无法达到理论最大值；同时，度量的增长由于其对数趋势而过于平缓，无法准确呈现模型强度的增长。

这种退化加之数值实验呈现出的较大方差，可能导致度量不一致的问题。即对于实际强度更强的模型，其度量可能更差；因此会导致模型之间强弱的错误比较。更进一步地，如果考虑到以上两个随机事件的相关性，作者进一步证明了模型偏差的存在，即度量会倾向于为负相关（即对于在测试集中缺失的事实，模型也更容易预测错误）的模型给出更高的评价。这种期望的不一致性无法通过更多的测试样例解决。

为了验证上述理论结果，作者生成了一个信息完全的家族谱图（family tree）数据集，然后从中随机删去一些事实以模拟现实的缺失数据集。在该数据集上，作者训练了各类知识图谱补全模型，在不同的缺失程度下都观察到了上述的度量退化和不一致现象。

如图所示的两个模型：M点代表的模型和红色线段上的一点代表的模型，在实际强度相差10%的情况下，评估度量给出了相反的结果（横轴为模型实际强度，纵轴为在缺失数据集上的评估）

作者指出，这种现象是由通常所采用的度量的“关注头部”（focus-on-top）的性质导致的。它要求度量对排序靠前的对象的位置变化更为敏感，这是为了模拟人类在进行评价时更为关注前置位的行为特点。然而，也正是这种敏感性使得在面对数据缺失时，度量会受到更严重的影响。为此，作者提出了一些更少“关注头部”的度量，并且基于理论和实验验证了这些度量的确可以减弱开世界问题对模型评估带来的影响。

最常见的MRR，具有明显的“关注头部”的性质

该工作中，作者基于知识图谱的开世界假设，对常见的知识图谱补全的评估度量进行了数学上的推导和实验验证，证明了度量退化和不一致现象的存在；并指出了这种现象的原因在于度量的关注头部性质。作者提出，应当考虑加入“更少关注头部”的度量作为结论的验证，以避免不准确和不公平的比较。用一句话总结，当前的知识图谱补全度量标准并不完美，可能会错误反映模型的强弱，本文指出了这一问题，给予了理论和实验上的验证，并提出了一些解决方案。

版权声明：
文章来源北京大学新闻网，分享只为学术交流，如涉及侵权问题请联系我们，我们将及时修改或删除。

相关学术资讯

清华大学化工系王铁峰团队在非均相氢甲酰化催化研究方面取得重要进展

研究开发出新型双功能席夫碱铁催化剂

2024年度国家自然科学基金专项项目 “面向典型低碳化工新过程的人工智能与机制融合建模”项目指南

清华大学精仪系团队提出双模式微机械可调级联超表面激光雷达系统

研究揭示藻—菌共生体系强化养殖尾水净化机制

中国科大NK细胞研究新进展：肿瘤“天然杀手”！

我国学者在胆汁淤积瘙痒分子机制和肝病治疗领域取得进展

北京大学城市与环境学院朴世龙院士团队在《自然-地球科学》撰文揭示植被变绿通过跨区域水汽传输利好全球地表水资源

北京大学马思伟研究团队在基于内容分析的高效视频编码研究方面取得进展

电子系方璐课题组在感算一体全光机器视觉研究领域取得新进展