获项目资助博士研究生与多个研究团队合作在具身空间智能领域取得进展
2025/06/03
图 SpatialVLA:面向具身智能的3D空间智能通用操作模型
在国家自然科学基金青年学生基础研究项目(博士研究生,批准号:624B2044)的资助下,复旦大学计算机科学与技术学院博士研究生屈德林与上海人工智能实验室、中国电信AI研究院、上海交通大学、浙江大学、上海科技大学等研究团队开展交叉合作,在面向具身智能的通用机器人空间智能操作研究中取得进展。研究成果“SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Models”被第21届Robotics: Science and Systems(RSS 2025)会议录用,项目代码与模型权重已经全面开源,截至2025年4月已获得15K的下载量。(开源项目:https://spatialvla.github.io;论文链接:https://arxiv.org/pdf/2501.15830)
与3D物理环境交互、适应不同机器人形态并执行复杂任务的通用操作策略,一直是机器人领域的长期追求。现有的通用操作模型局限于2D输入,缺乏鲁棒的3D感知能力,在面对单视角视差、光照变化和环境不一致等视觉外观变化时表现较差,限制了其在现实世界中的通用性。而人类本能地形成结构化的空间认知模型,轻而易举地在不同的场景中组织、操作物体。因此,当前面向具身智能的通用机器人领域的一个关键研究问题是如何有效地为视觉语言动作模型(VLA)赋予深刻的3D物理世界空间理解能力,即3D空间智能操作模型。
开发具有3D空间智能的通用机器人操作模型面临两个关键挑战:首先,由于相机传感器和安装位置(例如腕部安装与第三方视角)不同,机器人在各个形态下的观察数据缺乏3D对齐,造成了3D观察空间未同一校准的;其次,机器人表现出多样的动作特性,源自自由度、运动控制器、工作空间配置和任务复杂性的差异,使得学习通用空间动作变得复杂。为应对以上挑战,该文创新的提出了基于百万真机数据预训练的空间具身通用操作模型SpatialVLA(图),通过探索对齐的空间表示,将VLA模型赋予3D空间智能,全面探究空间表征在具身通用操作模型中的能力,在zero-shot泛化控制、场景高效微调、空间理解等多项评估中取得了较优的性能。
本研究成果创新地实现了具有真实3D空间智能的通用机器人操作模型,突破了视觉语言动作模型在复杂物理环境中的泛化性能瓶颈,将有效推动具身智能在工业服务、家庭助理等多样化场景的落地应用。
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2025最新JCR分区及影响因子1694
-
好学术:科研网址导航|学术头条分399
-
《时代技术》投稿全攻略:一位审稿408
-
2025年国际期刊预警名单发布!535
-
2025年中科院期刊分区表重磅发3794
-
中科院已正式发布2024年预警期793
-
2025年度国家自然科学基金项目673
-
中国科协《重要学术会议目录(202501
-
2024年国家自然科学基金项目评1064
-
2024年JCR影响因子正式发布1143
-
吉林大学校长张希:学术会议中的提1312
-
分享几种信息检索的方法,高效获取07-23
-
EI检索索引:类型分享,优化你的07-23
-
计算机领域文献的Ei检索:流程详07-23
-
EI检索参考,文献问题分析07-23
-
中国工业合作协会培训部 23008
-
北京信息科技大学 2037
-
三峡工程大酒店 17886
-
延边白山国际旅行社有限公司 18085
-
上海高登商业展览有限公司 20909
-
国际矿业企业工作委员会 17977
-
上海博蔚会展有限公司 23924
-
上海弘瑞投资管理有限公司 20853
-
中科成创(北京)生物技术有限公司 7937
-
北京华夏中医药发展基金会 20993
-
VREAFEW 23989
-
上海荣格展览有限公司 21015
-
哈尔滨市大学 21083
-
北京科技大学 22963
-
上海中铁快运 17950
-
北京怡养科技有限公司 23939
-
香港机械工程师协会 23844
-
南宁市三好物业管理有限公司 21119
-
上海意凡森医药科技发展有限公司 24003
-
上海远博志城经济咨询有限公司 8091