清华大学医学院廖洪恩课题组在人工智能视觉三维重建方面取得重要进展_科研信息_学术资讯

当前位置：首页 >> 学术资讯 >> 科研信息

2026年传感器技术、自动化与智能制造国际会议（STAIM 2026）

第十一届材料科学与工程国际学术会议(ISAMSE 2026）

第二届导航、检测与控制国际学术会议（CNDC 2026)

第三届图像处理、多媒体技术与机器学习国际学术会议（IPMML 2026）

2026年智能医学与图像计算国际会议 (IMIC 2026)

第三届虚拟现实、图像和信号处理国际学术会议（VRISP 2026）

2026年具身智能、机器人与控制系统国际学术会议（EIRCS 2026）

第五届信息经济、数据建模与云计算国际学术会议（ICIDC 2026）

第三届数字媒体、通信与信息系统国际学术会议（DMCIS 2026）

2026年智能机器人与控制技术国际会议（CIRCT 2026）

第五届机械电子工程与人工智能国际学术会议（MEAI 2026）

第六届先进制造技术与电子信息国际学术会议（AMTEI 2026）

第十一届计算机与信息处理技术国际学术研讨会（ISCIPT 2026）

第三届大数据、神经网络与深度学习研讨会（BDNNDL 2026）

第六届计算机视觉、应用与算法国际学术会议（CVAA 2026）

2026年IEEE计算机通信、信息系统与网络安全国际会议(CCISC 2026)

2026年第五届算法、数据挖掘和信息技术国际会议(ADMIT 2026)

2026年人工智能与机器人系统国际会议(ICAIRS 2026)

2026年IEEE人工智能、大数据与云计算国际会议 (AIBDCC 2026)

2026年IEEE第二届电力与可持续能源技术国际会议(PSETC 2026)

清华大学医学院廖洪恩课题组在人工智能视觉三维重建方面取得重要进展

2024/04/28

我们生活在一个三维的世界中，三维信息对于我们的感知和理解这个世界至关重要。从二维显示中获得深度信息可以更好地实现人机交互；获取和处理实时三维路况信息是自动驾驶技术的关键；医生在手术场景中获取三维信息可以更精确地识别和处理病灶位置……获取、恢复和重建三维信息，是计算机视觉领域的核心研究内容，在工业、娱乐、教育、医疗等领域有着广泛应用前景。

两视图几何是三维重建的基础。在两幅相关图片中找到对应于同一三维点的二维特征点，即建立匹配关系，可以计算出位姿变换和三维点坐标，这是许多三维重建任务的基础步骤，比如运动恢复结构（structure from motion, SFM）,同时定位与地图构建（simultaneous localization and mapping，SLAM）等。一般通过对提取到的特征点建立描述符，然后根据最近邻关系进行初步匹配。这样得到的匹配关系存在大量的误匹配（可能高达95%），因此需要识别并剔除错误匹配（outlier rejection）。传统的方法是基于随机一致性采样（RANSAC），但是在视角变换大、亮度变换剧烈、存在遮挡等情况中无法取得满意效果。因此，如何更好地识别和剔除误匹配成为了三维重建中的瓶颈任务。

近日，清华大学医学院生物医学工程系廖洪恩教授课题组的学术论文“OANet：基于层次结构的图神经网络来学习两视图几何匹配关系建立”（OANet: Learning Two-View Correspondences and Geometry Using Order-Aware Network）被国际电气电子工程师学会-模式分析与机器智能汇刊（IEEE Transactions on Pattern Analysis and Machine Intelligence, IEEE TPAMI）出版，刊登在2022年第44期第6卷。该研究通过设计一个新的图神经网络结构，对两视图的初步匹配关系进行误匹配识别和剔除，取得了很好的结果，极大提升了三维重建任务的效果。IEEE TPAMI是人工智能领域公认的知名期刊之一，也是中国计算机学会认定的人工智能领域A类期刊之一。

廖图片 1.png

图1. 本研究提出的OA-Net网络结构

廖洪恩课题组提出了一种新的神经网络结构OANet（Order-Aware Network,图1）实现了对误匹配的高效识别和剔除。该网络以初始建立的匹配点对为输入，输出每对点对是正确匹配的概率。由于输入点对没有顺序关系，无法应用卷积神经网络，本研究从图卷积中的池化操作得到启发，以多层神经网络为基本结构，设计了差异化池化层（Differentiable Pooling layer）模块（图2左），通过训练得到一个分配矩阵（assignment matrix），将该矩阵和输入点对矩阵相乘，实现对输入点对的聚类（cluster）。文中证明，这样得到的聚类是输入不变的（permutation-equivariant），即无论输入点对是以什么顺序进入网络，得到的聚类顺序是不变的，这样通过网络学习到了输入点对的内在结构。为了使得网络能对每个输入点对都进行分类，又设计了差异化反池化层（Differentiable Unpooling Layer）模块（图2右），通过学习到一个反池化分配矩阵（unpooling assignment matrix），将聚类反投影成为与输入点对一一对应的输出结构。利用新的池化和反池化操作，可以构建层次化的图神经网络，从而极大地提升了基于多层神经网络的图神经网络的表达能力，并保持了O(N)的复杂度。网络最终为每个输入点对都被分配了一个概率，表示是否为正确匹配，以这个概率加权的八点法得到的两视图基本矩阵作为损失函数对网络进行训练。在应用阶段，剔除掉低概率的点对，就能实现对匹配的识别和过滤。

20201229-差异化池化层和差异化反池化层模块-张家辉-论文图片.jpg

图2. 左：差异化池化层（Differentiable Pooling layer）模块；右：差异化反池化层（Differentiable Unpooling Layer）模块

本研究使用该网络结构在多个任务中进行了实验，包括室内室外数据集上的位姿估计任务、运动恢复结构任务、视觉定位任务，都极大提升了重建精度，并超越了同时期其他算（图3）法。相关的研究方法曾在IEEE国际计算机视觉与模式识别会议（CVPR 2019）图像匹配比赛中取得了第一名，并在视觉定位任务中也取得了最优（state-of-the-art）。本研究提出的网络结构通用性好，对特征点提取等步骤没有限制。匹配点对的内在结构和是否是正确匹配由网络训练得到，无需人工定义，可以非常方便地在特定任务中“即插即用”（Plug-and-Play）。本研究还对网络的泛化性进行了实验，结果表明提出的网络泛化性好，有迁移到其他非自然图像场景的应用潜力。

20201229-在室内室外位姿估计任务中和其他方法对比-张家辉-论文图片.jpg

图3. 在室内室外位姿估计任务中和其他方法对比，最下一行是本研究提出的方法

清华大学医学院教授廖洪恩是该研究的通讯作者，2020届博士毕业生张家辉为该研究的第一作者。该研究得到国家自然科学基金项目国家重大科研仪器研制项目、国家重点研发计划重点专项、北京市自然科学基金等项目支持。

廖洪恩课题组长期致力于三维医学影像和微创精准诊疗的研究，依据临床手术过程中的实时信息指引，以实施精密治疗从而提高治愈率和患者的生存质量（Quality of Life）为目的，致力于创建和推广一种以增强现实医学影像显示技术和智能微创器械为诊断和治疗平台的精准微创诊疗一体化模式。课题组先后提出了基于术前术中多模态信息融合分析实时诊疗引导、智能型微创手术机器人辅助精准诊疗等理论与系统，为针对复杂外科疾病的跨尺度多模态成像引导智能化诊疗理论的建立奠定了坚实的基础，相关研究被国际知名学术期刊《医学影像分析》（Medical Image Analysis）、《IEEE医学影像汇刊》（IEEE Transaction on Medical Imaging）、《柔性机器人技术》（Soft Robotics）、《诊疗》（Theranostics）等报道。

版权声明：
文章来源清华大学新闻，分享只为学术交流，如涉及侵权问题请联系我们，我们将及时修改或删除。

相关学术资讯

东南大学董帅课题组在莫尔铁性物理方面取得进展

新型磁流体机器人破解临床难题

新型植物源抗虫蛋白实现千万级转化

西安交大科研团队在非平衡制造拓展全固态电池材料的结构与性能边界领域取得新突破

我国学者发现多重马约拉纳零能模的证据

哈工大帅永教授团队在废塑料资源化利用领域取得重要进展

上海交大李松挺团队及合作者在《自然·通讯》发表最新成果揭示狨猴大脑的时间层级与关键动力学机制

清华大学机械系臧浠凝课题组在低频跨介质通讯与无人系统协同工作领域取得新进展

北京大学地球与空间科学学院李艳课题组揭示磷化氢在褐矮星上的亏损机制

清华大学自动化系李梢课题组基于宏微观跨层次关联规律建立中西医影像-分子网络关系推断的统一AI模型