清华大学医学院廖洪恩课题组在人工智能视觉三维重建方面取得重要进展_科研信息_学术资讯

当前位置：首页 >> 学术资讯 >> 科研信息

第四届信息经济、数据建模与云计算国际学术会议（ICIDC 2025）

第七届光电科学与材料国际学术会议 (ICOSM 2025)

2025年计算智能与机器人国际学术会议（CIR 2025)

2025年智能计算与系统仿真国际会议(ICSS 2025)

第五届电子材料与信息工程国际学术会议 (EMIE 2025)

第二届教育人工智能国际学术会议（ISAIE 2025）

2025年先进半导体器件与集成技术国际学术会议（ASDIT 2025）

2025年地质、能源与油气勘探国际学术会议（GEOGE 2025）

第八届人文教育与社会科学国际学术会议（ICHESS 2025）

第二届信号处理与神经网络应用国际学术会议（SPNNA 2025）

第五届生物医学与生物信息工程国际学术会议 (ICBBE 2025)

第九届交通工程与运输系统国际学术会议（ICTETS 2025）

2025年低空经济论坛暨低空飞行技术与无人机应用国际学术会议（LEF & ICLU 2025）

2025年图像、信号处理与机器学习国际学术会议（ISPML 2025）

第三届算法、图像处理与机器视觉国际学术会议（AIPMV2025）

2025年人工智能、虚拟现实与交互设计国际学术会议(AIVRID 2025)

清华大学医学院廖洪恩课题组在人工智能视觉三维重建方面取得重要进展

2024/04/28

我们生活在一个三维的世界中，三维信息对于我们的感知和理解这个世界至关重要。从二维显示中获得深度信息可以更好地实现人机交互；获取和处理实时三维路况信息是自动驾驶技术的关键；医生在手术场景中获取三维信息可以更精确地识别和处理病灶位置……获取、恢复和重建三维信息，是计算机视觉领域的核心研究内容，在工业、娱乐、教育、医疗等领域有着广泛应用前景。

两视图几何是三维重建的基础。在两幅相关图片中找到对应于同一三维点的二维特征点，即建立匹配关系，可以计算出位姿变换和三维点坐标，这是许多三维重建任务的基础步骤，比如运动恢复结构（structure from motion, SFM）,同时定位与地图构建（simultaneous localization and mapping，SLAM）等。一般通过对提取到的特征点建立描述符，然后根据最近邻关系进行初步匹配。这样得到的匹配关系存在大量的误匹配（可能高达95%），因此需要识别并剔除错误匹配（outlier rejection）。传统的方法是基于随机一致性采样（RANSAC），但是在视角变换大、亮度变换剧烈、存在遮挡等情况中无法取得满意效果。因此，如何更好地识别和剔除误匹配成为了三维重建中的瓶颈任务。

近日，清华大学医学院生物医学工程系廖洪恩教授课题组的学术论文“OANet：基于层次结构的图神经网络来学习两视图几何匹配关系建立”（OANet: Learning Two-View Correspondences and Geometry Using Order-Aware Network）被国际电气电子工程师学会-模式分析与机器智能汇刊（IEEE Transactions on Pattern Analysis and Machine Intelligence, IEEE TPAMI）出版，刊登在2022年第44期第6卷。该研究通过设计一个新的图神经网络结构，对两视图的初步匹配关系进行误匹配识别和剔除，取得了很好的结果，极大提升了三维重建任务的效果。IEEE TPAMI是人工智能领域公认的知名期刊之一，也是中国计算机学会认定的人工智能领域A类期刊之一。

廖图片 1.png

图1. 本研究提出的OA-Net网络结构

廖洪恩课题组提出了一种新的神经网络结构OANet（Order-Aware Network,图1）实现了对误匹配的高效识别和剔除。该网络以初始建立的匹配点对为输入，输出每对点对是正确匹配的概率。由于输入点对没有顺序关系，无法应用卷积神经网络，本研究从图卷积中的池化操作得到启发，以多层神经网络为基本结构，设计了差异化池化层（Differentiable Pooling layer）模块（图2左），通过训练得到一个分配矩阵（assignment matrix），将该矩阵和输入点对矩阵相乘，实现对输入点对的聚类（cluster）。文中证明，这样得到的聚类是输入不变的（permutation-equivariant），即无论输入点对是以什么顺序进入网络，得到的聚类顺序是不变的，这样通过网络学习到了输入点对的内在结构。为了使得网络能对每个输入点对都进行分类，又设计了差异化反池化层（Differentiable Unpooling Layer）模块（图2右），通过学习到一个反池化分配矩阵（unpooling assignment matrix），将聚类反投影成为与输入点对一一对应的输出结构。利用新的池化和反池化操作，可以构建层次化的图神经网络，从而极大地提升了基于多层神经网络的图神经网络的表达能力，并保持了O(N)的复杂度。网络最终为每个输入点对都被分配了一个概率，表示是否为正确匹配，以这个概率加权的八点法得到的两视图基本矩阵作为损失函数对网络进行训练。在应用阶段，剔除掉低概率的点对，就能实现对匹配的识别和过滤。

20201229-差异化池化层和差异化反池化层模块-张家辉-论文图片.jpg

图2. 左：差异化池化层（Differentiable Pooling layer）模块；右：差异化反池化层（Differentiable Unpooling Layer）模块

本研究使用该网络结构在多个任务中进行了实验，包括室内室外数据集上的位姿估计任务、运动恢复结构任务、视觉定位任务，都极大提升了重建精度，并超越了同时期其他算（图3）法。相关的研究方法曾在IEEE国际计算机视觉与模式识别会议（CVPR 2019）图像匹配比赛中取得了第一名，并在视觉定位任务中也取得了最优（state-of-the-art）。本研究提出的网络结构通用性好，对特征点提取等步骤没有限制。匹配点对的内在结构和是否是正确匹配由网络训练得到，无需人工定义，可以非常方便地在特定任务中“即插即用”（Plug-and-Play）。本研究还对网络的泛化性进行了实验，结果表明提出的网络泛化性好，有迁移到其他非自然图像场景的应用潜力。

20201229-在室内室外位姿估计任务中和其他方法对比-张家辉-论文图片.jpg

图3. 在室内室外位姿估计任务中和其他方法对比，最下一行是本研究提出的方法

清华大学医学院教授廖洪恩是该研究的通讯作者，2020届博士毕业生张家辉为该研究的第一作者。该研究得到国家自然科学基金项目国家重大科研仪器研制项目、国家重点研发计划重点专项、北京市自然科学基金等项目支持。

廖洪恩课题组长期致力于三维医学影像和微创精准诊疗的研究，依据临床手术过程中的实时信息指引，以实施精密治疗从而提高治愈率和患者的生存质量（Quality of Life）为目的，致力于创建和推广一种以增强现实医学影像显示技术和智能微创器械为诊断和治疗平台的精准微创诊疗一体化模式。课题组先后提出了基于术前术中多模态信息融合分析实时诊疗引导、智能型微创手术机器人辅助精准诊疗等理论与系统，为针对复杂外科疾病的跨尺度多模态成像引导智能化诊疗理论的建立奠定了坚实的基础，相关研究被国际知名学术期刊《医学影像分析》（Medical Image Analysis）、《IEEE医学影像汇刊》（IEEE Transaction on Medical Imaging）、《柔性机器人技术》（Soft Robotics）、《诊疗》（Theranostics）等报道。

版权声明：
文章来源清华大学新闻，分享只为学术交流，如涉及侵权问题请联系我们，我们将及时修改或删除。

相关学术资讯

华中科技大学集成电路学院王成亮团队综述有机电池现状和未来

我国学者在代谢功能障碍相关脂肪性肝炎原创药物靶标研究方面取得进展

中国科学院地质与地球物理研究所在破解“全新世温度谜题”方面取得进展

北京师范大学王友军教授等团队开发新型钙信号检测工具

清华大学深圳国际研究生院付红岩团队在大规模多任务纳米光子集成器件逆向设计上取得新进展

我国学者在超快复振幅光学成像方面取得进展

北理工团队在高光谱视频成像研究方面取得重要进展

清华大学机械系智能制造与精密加工研究室在基于惯性传感器的人体运动重建上取得新进展

北大团队首次实现在原子尺度上对同位素界面的研究

北京大学化学学院盖锋课题组与合作者在Chemical Reviews发表综述，阐述非天然氨基酸探针在生物光谱和成像研究中的应用