中山大学智能工程学院梁小丹教授课题组发布全新主动几何集成框架GeoThinker
2026/03/06
(通讯员李浩源)近日,中山大学智能工程学院梁小丹教授课题组与引望科技,联合上海交通大学、上海创智学院,发布了全新主动几何集成框架GeoThinker。
图注:GeoThinker模型框架
目前的视觉语言模型(VLM)在物体识别上已经非常成熟,但在理解复杂的3D物理空间关系时仍面临挑战。核心瓶颈在于传统的“被动融合”模式,即模型无差别地接收所有几何信息,导致视觉语义与底层几何位置难以精准对齐。这种方式不仅引入了大量如地板、墙面等无关的背景噪声,掩盖了关键的空间逻辑,还使得模型在处理复杂推理任务时精度不足,难以真正“读懂”三维物理世界 。
针对这些痛点,团队提出了名为GeoThinker的全新主动几何集成框架。GeoThinker实现了从“被动融合”向“主动感知”的范式转变,其核心在于构建了“按需查询”的智能机制。通过空间基座融合和重要性门控(IG)等核心架构,模型能够根据具体任务上下文,主动识别并定向提取关键的空间纹理信息。这种设计就像为模型装上了“智能滤镜”,使其能自发关注物体边界和关键结构,同时屏蔽冗余的背景干扰。
实验结果显示,GeoThinker在多项权威空间智能基准测试中展现了极强的领先性。它在 VSI-Bench 上以 72.6 分的成绩刷新了 SOTA 纪录,性能显著优于 GPT-5 和 Gemini-3-Pro 等闭源大模型。在全球 EASI 综合榜单中,GeoThinker 位列总榜第 6,是开源界公认的标杆模型。此外,该框架在具身智能机器人指代和自动驾驶规划决策等实际应用中也表现卓越,即便在极低分辨率的模糊图像下依然能保持稳健的空间推理能力。这一研究证明,空间智能的未来在于模型能够根据需求主动、精准地整合几何结构信息。
文章来源中山大学,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年第五届机器学习、云计算与智 26
-
2026年第二届计算机视觉与机器学习 627
-
2026年6月优质国际学术会议推荐 1157
-
2026年智慧教育与数据挖掘国际学术 813
-
2026年第11届生物医学信号与图像 697
-
2026资源、化学化工与应用材料国际 2559
-
2026年图像处理与数字创意设计国际 2369
-
2026年机械工程,新能源与电气技术 6849
-
2026年材料科学、低碳技术与动力工 2524
-
2026年海洋科学、水利工程与环境管 06-18
-
2026年环境工程、材料科学与循环经 06-18
-
2026年航空动力、流体力学与热物理 06-18
-
2026年地球化学、核物理与地质学国 06-18
-
2026年微机电、物理学与建模仿真国 06-18
-
2026年机械工程、电子技术与自动化 06-18
-
2026 JCR影响因子正式发布22
-
中国科协发布2025年《重要学术701
-
2026年新锐分区(原中科院期刊5279
-
2025年两院院士增选有效候选人5099
-
好学术:科研网址导航|学术头条分6650
-
2025年国际期刊预警名单发布!6856
-
2025年中科院期刊分区表重磅发24416
-
吉林大学校长张希:学术会议中的提7917
-
清华大学计算机系存储实验室团队获06-06
-
清华大学深圳国际研究生院钱翔、曲06-06
-
中国科大研制仿鱼鳞巨压容传感器 06-06
-
科研人员研发出新型复合介孔状纳米06-06
-
代谢小分子抗衰老功能研究取得进展06-06
-
南京大学物理学院张海军教授课题组06-06
-
南京大学超导电子学研究所团队利用06-06
-
北京木兰创业贸易发展有限公司 23319

-
上海容智能源科技有限公司 23408

-
IETP 24386

-
北京沃特咨询有限公司 21483

-
装饰设计工程有限公司 21247

-
VDAE 8419

-
中关村精准医学基金会 8608

-
浙江工业大学机械工程学院化工机械 23499

-
北京乾圆国学文化研究院 8245

-
复旦大学 18441

-
上海来溪会务服务有限公司 23737

-
GEAT 8466

-
湖南科技大学 21382

-
上海步客旅游信息咨询有限公司 18503

-
中国传媒大学 18526

-
华中科技大学 8294

-
西安市长安大学 23586

-
HKSME 24292

-
湖南国际教育科学研究院 2387

-
2018 Internation 21479





















135










































