当前位置:首页 >> 学术资讯 >> 科研信息

北京大学人工智能研究院朱毅鑫合作者在提升机器人指向型手势理解能力方向取得研究进展

2024/04/09

近日,北京大学人工智能研究院朱毅鑫助理教授及合作者在ICLR发表论文,题为“Understanding Embodied Reference with Touch-Line Transformer”,该研究改变了之前计算机视觉和机器人中对指向的理解,通过学习起源于触摸的指向型手势,使机器人更好地和人类交互。

当机器人与人类交互时,许多机器人很难确定人在指什么,因为大多数现代学习算法在理解人的指向性手势时不能很好地同时考虑手势和语言。尽管先前的工作(Chen et al.,2021)尝试了让算法明确地考虑人的姿势和人的语言,机器人仍然只能在14%的情况下准确定位(IoU>= 0.75)人指的物体。影响上述模型表现的一个可能的因素是没有很好地建模人的指向性手势。现代计算机视觉中人体姿势表示由COCO(Lin et al.,2014)定义:一个由 17 个节点(关键点)和14个边(关键点连线)组成的图。COCO的人体姿势表示包括肘部和腕部的连线,但不包括眼睛到指尖的连线。以图1为例,使用COCO人体姿势表示可以得到红色的线(肘腕线),但是不能得到绿色的线(触摸线)。

图1 所指物体(⻩⾊框内微波炉)在触摸线(绿⾊)上,不在肘腕线(红⾊)上

人类对指向性手势存在一个常见的误解(Herbort & Kunde, 2018):许多人错误地认为被指的物体在红色的肘腕线上。以图1为例,许多人会错误地依靠红色的肘腕线来定位被指的物体,从而错误地认为被指的物体是冰箱。使用如图1中所示的红色肘腕线来定位被指物体是有根本错误的,而这也是之前所有计算方法所使用的定位原则。

经过大量的观察,课题组发现绿色的触摸线(眼睛到指尖的连线)能够更好地表示被指物体的方向。图1中的人实际指的物体是黄色框中的微波炉(因为他指的同时说了“微波炉”)。图中的绿色的触摸线穿过了微波炉的中心,很准确地表示了所指物体的方向。因此,使用触摸线可以帮助人们更准确地定位被指的物体。

发表于Science Advances的一项心理学研究 (O'Madagain et al., 2019) 很好地佐证了上述的触摸线能帮人们更准确定位被指物体这一观点。该心理学研究发现触摸线能更准确地反映被指物体的方向,并且提出了人们的“指向性手势源于触摸”。

受到触摸线比肘腕线更准确这一基本观察的启发,课题组希望让机器人学习这个起源于触摸的指向性手势,从而更好地与人类交互。因此,课题组连接了眼睛和指尖,从而扩充了现有的 COCO人体姿势表示。课题组的实验结果表明让模型学习触摸线能够显著提高理解人类指向性手势时的准确性。

为此,本文构建了一个包含多模态编码器和Transformer解码器的框架、使用余弦相似度来衡量物体和触摸线之间的共线性、并使用一个referent alignment loss来鼓励模型预测出和触摸线具有较高共线性的所指物体。

在0.25、0.50和0.75的IoU阈值下,课题组的方法分别优于现有的最先进方法16.4%、23.0% 和 25.0%(表1)。具体来说,课题组的模型比没有明确利用非语言手势信号的visual grounding 方法(Yang et al.,2019;2020) 表现更好。课题组的方法也比YouRefIt (Chen et al.,2021)中提出的方法表现更好,后者没有利用触摸线或transformer模型来完成多模态任务。

表1 与state-of-the-art方法的比较

同时,课题组比较了让模型明确预测触摸线、明确预测肘腕线、和不预测任何手势信号的三种模型的表现。总的来说,在所有三个IoU阈值下,训练来预测触摸线的模型比训练来预测肘腕线的模型表现更好(表2)。在 0.75的IoU阈值下,经过训练可以明确预测肘腕线的模型比没有经过训练可以明确预测任何手势信号的模型表现更差。

表2 预测触摸线的模型和预测肘腕线模型的比较

(None:不明确预测触摸线或肘腕线;EWL:明确预测肘腕线;VTL:明确预测触摸线)

我们的定性结果也显示学习预测触摸线的模型在很多情况下比学习预测肘腕线的模型表现更好(图2)。

图2: 定性结果:学习预测触摸线的模型在很多情况下表现更好

课题组提出让计算模型学习触摸线从而更好地理解人类的指向性手势。课题组的模型将视觉和文本特征作为输入,同时预测指示对象的边界框和触摸线向量。利用触摸线先验,课题组进一步设计了一种几何一致性损失函数,鼓励所指物体和触摸线之间的共线性。学习触摸线可以显着提高模型性能。在YouRefIt数据集上进行的实验表明,课题组的方法在0.75IoU标准下实现了+25.0%的精度提升,缩小了计算模型与人类表现之间63.6%的差距。此外,课题组通过计算模型验证了此前的人类实验的结果:课题组证明了计算模型在学习触摸线时比学习肘腕线时能更好地定位所指物体。

本文的通讯作者是清华大学智能产业研究院李阳、助理教授赵昊,北京大学人工智能研究院助理教授朱毅鑫。其他作者包括加州圣地亚哥分校副教授Federico Rossano、清华大学智能产业研究院陈小雪、龚江涛、周谷越。

参考文献

[1] Yixin Chen, Qing Li, Deqian Kong, YikLun Kei, Song-Chun Zhu, Tao Gao, Yixin Zhu, and Siyuan Huang. Yourefit: Embodied reference understanding with language and gesture. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 1385–1395, 2021. 1, 2, 5, 6, 9, 10

[2] Tsung-YiLin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In European Conference on Computer Vision (ECCV), 2014. 2

[3] Oliver Herbort and Wilfried Kunde. How to point and to interpret pointing gestures? instructions can reduce pointer–observer misunderstandings. Psychological Research, 82(2):395–406, 2018. 2, 3

[4] Cathal O’Madagain, Gregor Kachel, and Brent Strickland. The origin of pointing: Evidence for the touch hypothesis. Science Advances, 5(7): eaav2558, 2019. 2

[5] Zhengyuan Yang, Boqing Gong, Liwei Wang, Wenbing Huang, Dong Yu, and Jiebo Luo. A fast and accurate one-stage approach to visual grounding. In International Conference on Computer Vision (ICCV), 2019. 6, 10

[6] Zhengyuan Yang, Tianlang Chen, Liwei Wang, and Jiebo Luo. Improving one-stage visual grounding by recursive sub-query construction. In European Conference on Computer Vision (ECCV), 2020. 6, 10


版权声明:
文章来源北京大学新闻网,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议

2025艺术、服装设计与纺织科学国际会议(FDTS 2025)(2025-07-26)

第八届声学、振动、噪声控制国际研讨会(CAVNC 2025)(2025-08-09)

2025年矿山工程、地质工程与环境工程国际会议(ICMEGEEE 2025)(2025-08-10)

标准化、信息化、智能化(AI)赋能科技成果评估转化与高价值专利布局高级研修班(8月青岛)(2025-08-13)

第六届清洁能源与电力工程国际学术会议(ICCEPE 2025)(2025-08-15)

2025年可信大数据与人工智能国际会议(ICTBAI2025)(2025-08-21)

2025年第三届智能制造与自动化前沿国际会议(CFIMA 2025)(2025-08-22)

第六届物联网、人工智能与机械自动化国际学术会议 (IoTAIMA 2025)(2025-08-22)

第五届测量控制与仪器仪表国际学术会议(MCAI 2025)(2025-08-22)

第十届工程机械与车辆工程新进展国际学术会议(ICACMVE 2025)(2025-08-22)

2025年机械,农业与自动化国际会议(ICMAA 2025)(2025-9-8)

2025年能源系统与智能电网国际学术会议(ICESSG 2025)(2025-8-6)

2025年应用数学、建模与信息安全国际会议(ICAMMIS 2025)(2025-8-3)

第二届电子信息与交通工程国际会议(ICEITE 2025)(2025-8-9)

2025第四届国际青年学者高峰论坛-新能源新材料学术研讨会(IYSF-NENM2025)(2025-8-22)

2025年地形测量、激光雷达与三维建模国际会议(TSLDM 2025)(2025-8-3)

2025年水利工程、混凝土材料与土木建筑国际会议(WCECCMCC 2025)(2025-8-25)

2025年能源、电气与控制技术国际学术会议(EECT 2025)(2025-9-15)

2025年农村信息化与智慧农业国际会议(ICRISA 2025)(2025-9-9)

2025年市场经济、区块链与预测模型国际学术会议(MEBPM 2025)(2025-8-13)

小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。