当前位置:首页 >> 学术资讯 >> 科研信息

北京大学人工智能研究院朱松纯、朱毅鑫团队在可理解和解释直觉物理违反预期现象的研究方面取得进展

2024/03/26

北京大学人工智能研究院朱松纯教授、朱毅鑫助理教授及团队,与北京通用人工智能研究院张驰研究员联合在ICCV 2023会议上发表论文,题为“X-VoE: Measuring eXplanatory Violation ofExpectation in Physical Events”。

该研究的核心目标是构建能够类似人类般理解和解释物理“魔术”现象的智能体,尤其是在某些元素被遮挡或不可见的情境中。通过这项研究,团队不仅提出了一种全新的评估方法,以衡量智能体对物理常识的理解和解释能力,还展示了在无监督的条件下,如何利用物理常识推测遮挡现象背后可能的场景解释。

构建具有人类般思考能力的智能体,特别是借鉴人类婴儿早期智能的发展历程,是人工智能研究的重要方向。虽然直觉物理的重要性已逐渐得到认识(Battaglia, et al., 2013; Piloto, et al., 2022),但现有研究往往仅将其视为一个预测问题(Piloto, et al., 2022; Riochet, et al., 2021),而忽视了对观察结果的解释过程。发展心理学家通过设计“魔术”般的违反预期实验(VoE)来探索人类早期对直觉物理的认知能力(Baillargeon, et al., 1985; Baillargeon, 2004)。他们发现,人类的惊讶不是来自于物理事件本身,而是来自于在事件发生后仍然无法解释的观察结果(Andréa & Baillargeon, 2002; Baillargeon, 1994)。这揭示了在VoE实验中,解释过程是不可或缺的。论文的作者戴博强调,这项研究旨在推动AI学习和模拟人类对直觉物理的理解,特别是在视觉中对事件观测不完全时的可解释性,为后续进一步提升AI的解释能力提供了启示。

VoE通过比较婴儿对可能事件和不可能事件的反应来检验其认知能力。如图所示,即便是婴儿,也能对奇异的物理现象,例如物体神奇地穿过另一个固体或在未接触的情况下弹回,产生惊讶(surprise)反应。实验通常包括展示一系列严密设计的事件给婴儿,这些事件要么符合,要么违反婴儿对物理世界和物理规律的预期。通过这种对比实验设计,研究人员可以观察和分析婴儿是否有惊讶反应来判断婴儿对物理世界的理解。受此启发,DeepMind和MIT等机构的研究团队也采用VoE作为测试智能体对直觉物理认知的方案(Piloto, et al., 2022; Smith, et al., 2019)。然而,这些研究主要关注智能体的预测能力,而较少考虑其解释能力。因此在AI的直觉物理认知研究中,解释能力需要进一步探索。

研究团队通过如下图所示的三种不同测试方案完成对解释能力的综合评估;每个图中,上图是提供给算法的输入,下图是算法输出的对VoE的解释结果。

评估方案:这三种测试设置中最简单的是预测性设置,如下图所示。当一开始所有的物体都可被观测(即不存在隐藏变量),任何一个预测模型都可以预测视频将要发生什么,从而判断视频是否违反物理定律(即产生类似婴儿般的惊讶)。这也就意味着,在这一设置条件下,无法区分模型是否具有解释能力。然而,在假设性设置中,根据是否对隐藏因素进行推理,其结果可能会大相径庭:仅凭视觉感知,年龄越小的婴儿越可能会对球返回起点而非直接穿过感到惊讶;但随着解释能力的提高,其会认为墙后隐藏着阻挡者,因而不会感到惊讶,就像知道魔术秘密的观众不会对魔术感到惊讶一样。最后在解释性设置中,由于场景设置在最后才被揭开,这一后续提供的信息会使之前发生的物理过程违背物理定律,而仅使用预测模型无法利用这一后续信息,相反,具有解释能力的模型可以利用这一信息从而给出与预测模型完全相反的结果。通过这三种实验设置可以帮助区分智能体在处理VoE事件时是否具有解释能力。

fd51159f269c46a08ff0c54cfd17584b.jpg

三种不同的测试方案

数据集:基于上述三种不同的实验设置方案(分别标记为S1、S2、S3),研究者们创建了如下图所示的四个经典的测试场景,包括球体碰撞(collision)、阻挡(permanence)、物体持久性(permanance)和物体连续性(continouity)。为了测试不同的直觉物理定律,每个场景(除物体持久性)都设计了三种独特的设置:预测、假设和解释。为了准确实现VoE的效果,在每个场景中的物体前都添加了遮蔽墙,以隐藏某些物体,通过改变墙壁的升降来实现不同的效果。在每种情况下,使用具有相同设置识别码(S1、S2、S3)来连接每种设置下测试视频中的帧。从起始帧(第一行图像)到结束帧(第三行图像),黑色连接表示符合直觉物理的视频,而红色连接表示不符合直觉物理的视频。值得注意的是,该数据集的设计主要目的是用于测试模型对于直觉物理的理解,通过这种设计,可以全面评估模型在不同场景和设置下的解释能力,为进一步的研究和开发提供有价值的参考。

球体碰撞(collision)、阻挡(permanence)、物体持久性(permanance)和物体连续性(continouity)四个测试场景

包含可解释模块的物理学习模型:为了嵌入解释能力,研究人员在现有的基准模型PLATO的基础上增加了解释模块,构建出如图所示的解释能力集成的物理学习模型(XPL)。所提出的XPL模型包括三个主要组成部分:(1)感知模块,负责提取以物体为中心的表征,为下游处理提供基础;(2)解释模块,负责从空间和时间维度推断被遮挡物体的状态;(3)动态模块,负责学习物理知识并评估被遮挡物体的解释结果。这三个模块共同工作,使得XPL模型能够在处理物理事件时,不仅能预测结果,还能为预测结果提供合理的解释。通过这种设计,XPL模型为在AI中探讨和实现解释能力提供了新的可能路径,有助于推动相关研究的进一步发展。

解释能力集成的物理学习模型(XPL)

可视化:该工作的一大亮点是加入了解释过程。下图可视化地展示了在阻挡场景下三种不同设置中,模型解释模块推理并恢复出的被遮挡的物理过程,从而解释了观察结果,并根据解释后的物理过程,判断是否违反了直觉物理。

4724a77250fe43e5941b6f9bf8d34b48.jpg

在阻挡场景下三种不同设置中,模型解释模块推理并恢复出的被遮挡的物理过程

定量分析:我们从整体和对比两个角度分析了模型的准确率,并与PLATO和PhyDNet两个经典模型进行了对比。

1、综合准确率(参考Smith, et al., 2019):为了评估一个模型在违反和不违反直觉物理现象中的综合表现,综合准确率将违反和不违反的物理场景进行配对并交叉验证,测试模型的准确率。结果如下图所示:在所有测试场景中,研究者提出的XPL都表现出了更好的性能,尤其在碰撞、阻塞和持久性方面。

综合准确率

2、相对准确率(参考Piloto, et al., 2022):为了进一步评估模型对直觉物理的解释能力,相对准确率要求模型判断给定一组的视频中,哪一个相对更违反直觉物理。在预测环境(S1)中,因为这一任务仅依赖预测能力,所以已有的AI系统都能取得较好的结果,接近人类的水平。

真正区分出不同模型的优劣,尤其是与人类水平之间差距的,是在假设环境(S2)和解释环境(S3)中的变化率。在S2中,婴儿在实验中没有展现出VoE,这可能意味着其不具有物理常识,也有可能包含了解释能力,即相对率应为50%;转换到S3中,由于后续提供的额外信息,婴儿能分辨出VoE,即100%。这一由极少量额外信息引发的对VoE的分辨能力变化(50%到100%)是之前直觉物理模型无法实现的。而研究者提出的XPL较好地捕捉到了这一变化,尤其是在碰撞和阻塞场景中。

相对准确率

在这项工作中,研究人员重点突出了直觉物理理解中解释能力的重要性。具体地,研究人员提供了一个新颖的包含测试解释能力的违反预期视频数据集,同时还提出了一个包含解释能力的模型来处理相关隐藏变量(即被遮挡的物体)。

实验结果表明,该模型可以利用学到的直觉物理还原被遮挡物体,并因此在测试数据集上对比其他缺少解释过程的模型拥有更好的表现。值得注意的是,模型对被遮挡物体的解释结果经过可视化后,也能较为符合人类的认知,这突出了它对隐藏因素进行推理的能力。

本文的第一作者是北京大学博士后戴博(朱松纯指导),通讯作者为朱毅鑫、张驰研究员。论文作者还包括清华大学王林歌以及北京通用人工智能研究院的贾宝雄和张泽宇研究员。


版权声明:
文章来源北京大学新闻网,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议

第四届绿色能源与电力系统国际学术会议(ICGEPS 2025)(2025-04-11)

第四届生物医学与智能系统国际学术会议(IC-BIS 2025)(2025-04-11)

第六届机电一体化技术与智能制造国际学术会议(ICMTIM 2025)(2025-04-11)

第五届数字信号与计算机通信国际学术会议(DSCC 2025)(2025-04-11)

2025年人工智能、数字媒体技术与社会计算国际学术会议 (ICAIDS 2025)(2025-04-11)

2025年材料科学与技术国际研讨会 (MST-S)(2025-04-19)

高价值专利布局、专利检索分析和科技成果转化高级研修班(4月重庆)(2025-04-22)

2025年第四届人工智能与机器学习国际会议(FAIML 2025)(2025-04-25)

2025年视觉、先进成像和计算机技术国际学术会议(VAICT2025)(2025-04-25)

2025年无线与光通信国际会议(CWOC 2025)(2025-04-25)

2025新能源与电力、电网国际会议(ICNEEG 2025)(2025-5-3)

2025应用力学、数学与物理学国际学术会议(ICAMMP 2025)(2025-4-26)

2025年传感器、人工智能与机电一体化国际会议(ISAIM 2025)(2025-5-24)

2025年光电材料、电子器件与半导体国际会议(IOMEDS 2025)(2025-4-26)

2025年电力系统,智能电网与能源国际会议(PSSGE 2025)(2025-4-11)

2025年生物化学工程与可持续发展国际会议(ICBESD 2025)(2025-5-20)

2025年第二届创新教育与学习资源国际会议 (IELR 2025)(2025-4-18)

2025年生物医学、公共卫生与心理健康国际会议(BPHMH 2025)(2025-4-14)

2025农业工程、畜牧业与环境保护国际会议(ICAELEP 2025)(2025-5-10)

2025年水动力学、能源与电力系统国际会议(ICHEPS 2025)(2025-4-27)

小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。
综合推荐区

靠岸妙写-AI一键生成万字论文,免费摘要、大纲,降A...

2025年第四届云计算、计算机视觉和图像处理国际会议...

2025年无线与光通信国际会议(CWOC 2025)

2025年生物信息学与计算生物学国际学术会议(ISB...

2025年艺术、教育和管理国际学术会议(ICAEM ...

2025第二届计算,机器学习与数据科学国际会议(CM...

第二届电气技术与自动化工程国际学术会议 (ETAE ...

2025年信息科学塞上前沿论坛暨信息安全与智能控制学...

2025年地球物理与勘探开发国际学术会议 (ICGE...

第五届先进材料与机械电子国际学术会议 (ICAMM ...

2025年储能及能源转换国际学术会议(ESEC 20...

Scholaread靠岸学术-一键搞定文献阅读翻译管...

第十届智能计算与信号处理国际学术会议(ICSP 20...

第三届食品科学与生物医药学术会议(ICFSB 202...

2025年第三届亚洲机器学习、算法和神经网络国际会议...

2025年第三届亚洲计算机视觉、图像处理和模式识别国...

第九届能源技术与材料科学国际学术会议(ICETMS ...

2025IEEE第六届计算,网络与物联网国际会议 (...

2025年第四届信号处理、信息系统与网络安全国际会议...

2025年第四届网络、通信与信息技术国际会议(CNC...

2025 年第二届先进机器人,自动化工程与机器学习国...

2025年IEEE电力与可持续能源技术国际会议(PS...

2025 IEEE第六届控制,机器人与智能系统国际会...