北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展_科研信息_学术资讯

当前位置：首页 >> 学术资讯 >> 科研信息

2026年传感器技术、自动化与智能制造国际会议（STAIM 2026）

第十一届材料科学与工程国际学术会议(ISAMSE 2026）

第二届导航、检测与控制国际学术会议（CNDC 2026)

第三届图像处理、多媒体技术与机器学习国际学术会议（IPMML 2026）

2026年智能医学与图像计算国际会议 (IMIC 2026)

第三届虚拟现实、图像和信号处理国际学术会议（VRISP 2026）

2026年具身智能、机器人与控制系统国际学术会议（EIRCS 2026）

第五届信息经济、数据建模与云计算国际学术会议（ICIDC 2026）

第三届数字媒体、通信与信息系统国际学术会议（DMCIS 2026）

2026年智能机器人与控制技术国际会议（CIRCT 2026）

第五届机械电子工程与人工智能国际学术会议（MEAI 2026）

第六届先进制造技术与电子信息国际学术会议（AMTEI 2026）

第十一届计算机与信息处理技术国际学术研讨会（ISCIPT 2026）

第三届大数据、神经网络与深度学习研讨会（BDNNDL 2026）

第六届计算机视觉、应用与算法国际学术会议（CVAA 2026）

2026年IEEE计算机通信、信息系统与网络安全国际会议(CCISC 2026)

2026年第五届算法、数据挖掘和信息技术国际会议(ADMIT 2026)

2026年人工智能与机器人系统国际会议(ICAIRS 2026)

2026年IEEE人工智能、大数据与云计算国际会议 (AIBDCC 2026)

2026年IEEE第二届电力与可持续能源技术国际会议(PSETC 2026)

北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

2026/04/21

文章导读

智能驾驶正在遭遇“开放世界”的致命盲区：传统模型只能识别预设物体，一旦遇到未知障碍便可能引发事故。当行业还在死磕单一传感器精度时，北大王勇涛团队却撕开了一个关键缺口——他们不仅让系统能“看懂”从未见过的物体，更首次将交通法规与道德原则注入端到端决策核心。这意味着未来的车不再只是机械执行指令，而是真正懂得“防御性驾驶”。但这项被顶会连发认可的技术，究竟是如何在无需人工标注的情况下，让机器学会像人类一样权衡生死？

— 内容由好学术AI分析文章内容生成，仅供参考。

近期，王选计算机研究所王勇涛团队针对智能驾驶场景下的多模态融合、开放世界感知、高阶端到端VLA智能驾驶系统、驾驶场景数据合成与重建等多个关键问题，先后提出了R4Det、VL-SAM v2、AutoOcc、OpenAD、KnowVal、DrivingGaussian++等系列工作，被人工智能领域顶级国际会议ICCV 2025、NeurIPS 2025、CVPR 2026和顶级国际期刊TPAMI发表/录用，同时申请了多项发明专利。

当前，新能源汽车成为了我国的支柱产业，而智能驾驶技术是发展新能源汽车产业的关键技术之一。然而，智能驾驶技术正面临着多个挑战，包括：

1. 多模态融合问题：智能驾驶车辆通常融合多种传感器以提升安全性与鲁棒性。其中，4D毫米波雷达-环视相机方案兼具高性能与高性价比，但对应的多模态数据差异较大，如何高效地进行融合是技术难点之一。

2. 开放世界感知问题：传统基于闭集范式的感知模型只能识别预设类别，无法处理未知类别物体进而导致事故。开集（open-set）、开放词汇（open-vocabulary）感知方法能感知任意对象，但需要用户持续输入提示词。开放式（open-ended）感知无需任何提示词即可感知所有物体，是智能驾驶领域的前沿挑战问题之一。

3. 高阶端到端VLA系统瓶颈：现有端到端、VLA智能驾驶系统系统存在三大缺陷：隐式规则学习导致罕见场景泛化差、可解释性差；模态推理割裂，VLA模型仅限语言推理，无法深度融合视觉感知与语言规则；价值对齐缺失，只优化轨迹误差，忽略交通法规、道德、防御性驾驶原则等人类偏好。

4. 场景数据合成与重建难题：高质量、多样化的驾驶场景数据对智能驾驶系统训练测试至关重要。常规方法（NeRF、3DGS）在动态大范围场景中重建精度低、成本高、编辑能力弱，难以高效合成复杂或稀有场景。

针对上述关键问题，王勇涛团队与合作者取得了如下多项智能驾驶技术新进展。

一、4D毫米波雷达-环视相机多模态感知架构R4Det（CVPR 2026）

R4Det针对绝对深度估计模块精度有限的问题，摒弃了稀疏的度量回归，引入序数排序损失；针对缺乏自车位姿时的时序融合问题，提出可变形门控时序融合模块，以对齐非刚性运动；针对小体积物体召回率和准确率低的问题，提出了实例引导的动态优化模块；取得了大幅领先的3D多模态检测结果。

图1 R4Det架构图

图2 R4Det取得了领先的3D目标检测结果

二、开放式目标检测和实例分割框架VL-SAM v2（NeurIPS 2025）

VL-SAM（NeurIPS 2024）是王勇涛团队提出的首个开放式目标检测和实例分割框架，无需提示词即可对任意类别物体进行检测和分割。VL-SAM v2进一步通过通专融合对稀有类别和常见类别目标均实现了优越的感知性能，在多个基准数据集上取得了领先的开放式感知结果。

图3 VL-SAM v2框架示意图

三、开放世界占据栅格自动标注系统AutoOcc（ICCV 2025）

AutoOcc是一个高效、高质量的开放式三维语义占据栅格（Occupancy）真值生成框架；基于视觉语言模型和视觉基础模型，进行多视图场景重建，无需任何人类标注即可超越现有占据栅格标注和预测管线，并展现良好的通用性和泛化能力，在多个评测基准及长安汽车等车企的业务数据上取得了媲美人类标注的结果。

图4 AutoOcc方法示意图

表1 在Occ3D-nuScenes基准上，AutoOcc取得了领先的占据栅格真值标注结果

表2 在SemanticKITTI基准上，AutoOcc取得了领先的跨数据集与未知类别的零样本泛化结果

四、开放世界驾驶场景感知评测基准及开放式3D目标检测算法OpenAD（NeurIPS 2025）

OpenAD是首个面向开放世界的驾驶场景感知评测基准，并同时提出了一个以视觉为中心的3D开放世界目标检测基线。OpenAD挑战赛长期公开开放（https://github.com/VDIGPKU/OpenAD），欢迎目标检测/3D感知/多模态大模型的研究者参与。

图5 OpenAD评测集长尾物体示意图

图6 OpenAD所提出的开放式3D目标检测基线示意图

五、检索增强与价值引导的智能驾驶VLA系统KnowVal (CVPR 2026)

KnowVal是首个对齐交通法规、道德、防御性驾驶原则等人类偏好的端到端智能驾驶VLA（视觉-语言-动作）系统。它通过通专融合的开放世界感知，进行实例特征抽取、场景特征抽取和检索引导的抽象元素理解；并对一个构建的包含了法律法规、道德原则、防御性驾驶原则的知识图谱进行感知引导的检索，得到相关性由高到低排列的知识条目及其特征词元；最后通过规划模块、隐式世界模型模块和价值模型，进行价值评估，选定规划轨迹。在多个国际基准上，KnowVal均取得了领先的自动驾驶结果。