当前位置:首页 >> 学术资讯 >> 科研信息

北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

2026/04/21

文章导读
智能驾驶正在遭遇“开放世界”的致命盲区:传统模型只能识别预设物体,一旦遇到未知障碍便可能引发事故。当行业还在死磕单一传感器精度时,北大王勇涛团队却撕开了一个关键缺口——他们不仅让系统能“看懂”从未见过的物体,更首次将交通法规与道德原则注入端到端决策核心。这意味着未来的车不再只是机械执行指令,而是真正懂得“防御性驾驶”。但这项被顶会连发认可的技术,究竟是如何在无需人工标注的情况下,让机器学会像人类一样权衡生死?
— 内容由好学术AI分析文章内容生成,仅供参考。

近期,王选计算机研究所王勇涛团队针对智能驾驶场景下的多模态融合、开放世界感知、高阶端到端VLA智能驾驶系统、驾驶场景数据合成与重建等多个关键问题,先后提出了R4Det、VL-SAM v2、AutoOcc、OpenAD、KnowVal、DrivingGaussian++等系列工作,被人工智能领域顶级国际会议ICCV 2025、NeurIPS 2025、CVPR 2026和顶级国际期刊TPAMI发表/录用,同时申请了多项发明专利。

当前,新能源汽车成为了我国的支柱产业,而智能驾驶技术是发展新能源汽车产业的关键技术之一。然而,智能驾驶技术正面临着多个挑战,包括:

1. 多模态融合问题:智能驾驶车辆通常融合多种传感器以提升安全性与鲁棒性。其中,4D毫米波雷达-环视相机方案兼具高性能与高性价比,但对应的多模态数据差异较大,如何高效地进行融合是技术难点之一。

2. 开放世界感知问题:传统基于闭集范式的感知模型只能识别预设类别,无法处理未知类别物体进而导致事故。开集(open-set)、开放词汇(open-vocabulary)感知方法能感知任意对象,但需要用户持续输入提示词。开放式(open-ended)感知无需任何提示词即可感知所有物体,是智能驾驶领域的前沿挑战问题之一。

3. 高阶端到端VLA系统瓶颈:现有端到端、VLA智能驾驶系统系统存在三大缺陷:隐式规则学习导致罕见场景泛化差、可解释性差;模态推理割裂,VLA模型仅限语言推理,无法深度融合视觉感知与语言规则;价值对齐缺失,只优化轨迹误差,忽略交通法规、道德、防御性驾驶原则等人类偏好。

4. 场景数据合成与重建难题:高质量、多样化的驾驶场景数据对智能驾驶系统训练测试至关重要。常规方法(NeRF、3DGS)在动态大范围场景中重建精度低、成本高、编辑能力弱,难以高效合成复杂或稀有场景。

针对上述关键问题,王勇涛团队与合作者取得了如下多项智能驾驶技术新进展。

一、4D毫米波雷达-环视相机多模态感知架构R4Det(CVPR 2026)

R4Det针对绝对深度估计模块精度有限的问题,摒弃了稀疏的度量回归,引入序数排序损失;针对缺乏自车位姿时的时序融合问题,提出可变形门控时序融合模块,以对齐非刚性运动;针对小体积物体召回率和准确率低的问题,提出了实例引导的动态优化模块;取得了大幅领先的3D多模态检测结果。

北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

图1 R4Det架构图

北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

图2 R4Det取得了领先的3D目标检测结果

二、开放式目标检测和实例分割框架VL-SAM v2(NeurIPS 2025)

VL-SAM(NeurIPS 2024)是王勇涛团队提出的首个开放式目标检测和实例分割框架,无需提示词即可对任意类别物体进行检测和分割。VL-SAM v2进一步通过通专融合对稀有类别和常见类别目标均实现了优越的感知性能,在多个基准数据集上取得了领先的开放式感知结果。

北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

图3 VL-SAM v2框架示意图

三、开放世界占据栅格自动标注系统AutoOcc(ICCV 2025)

AutoOcc是一个高效、高质量的开放式三维语义占据栅格(Occupancy)真值生成框架;基于视觉语言模型和视觉基础模型,进行多视图场景重建,无需任何人类标注即可超越现有占据栅格标注和预测管线,并展现良好的通用性和泛化能力,在多个评测基准及长安汽车等车企的业务数据上取得了媲美人类标注的结果。

北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

图4 AutoOcc方法示意图

北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

表1 在Occ3D-nuScenes基准上,AutoOcc取得了领先的占据栅格真值标注结果

北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

表2 在SemanticKITTI基准上,AutoOcc取得了领先的跨数据集与未知类别的零样本泛化结果

四、开放世界驾驶场景感知评测基准及开放式3D目标检测算法OpenAD(NeurIPS 2025)

OpenAD是首个面向开放世界的驾驶场景感知评测基准,并同时提出了一个以视觉为中心的3D开放世界目标检测基线。OpenAD挑战赛长期公开开放(https://github.com/VDIGPKU/OpenAD),欢迎目标检测/3D感知/多模态大模型的研究者参与。

北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

图5 OpenAD评测集长尾物体示意图

北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

图6 OpenAD所提出的开放式3D目标检测基线示意图

五、检索增强与价值引导的智能驾驶VLA系统KnowVal (CVPR 2026)

KnowVal是首个对齐交通法规、道德、防御性驾驶原则等人类偏好的端到端智能驾驶VLA(视觉-语言-动作)系统。它通过通专融合的开放世界感知,进行实例特征抽取、场景特征抽取和检索引导的抽象元素理解;并对一个构建的包含了法律法规、道德原则、防御性驾驶原则的知识图谱进行感知引导的检索,得到相关性由高到低排列的知识条目及其特征词元;最后通过规划模块、隐式世界模型模块和价值模型,进行价值评估,选定规划轨迹。在多个国际基准上,KnowVal均取得了领先的自动驾驶结果。

北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

图7 KnowVal系统示意图

北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

表3 KnowVal在nuScenes(上方)、NAVSIM(左下)、Bench2Drive(右下)基准上取得领先的自动驾驶结果

六、面向动态驾驶场景的高质量重建与可控编辑框架DrivingGaussian++(TPAMI 2026)

DrivingGaussian++是一个面向大规模动态驾驶场景的高效重建与编辑框架,通过复合高斯重建将场景分解为静态背景与动态前景,分别进行增量式重建,支持免训练的三维场景可控编辑,包括纹理修改、天气模拟和物体操控等任务,显著提升了驾驶场景数据合成的真实感与多样性。

北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

图8 DrivingGaussian++框架示意图

北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

表4 DrivingGaussian++取得了领先的重建结果(上表)和场景编辑效果(下方四表)

北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

图9 DrivingGaussian++编辑结果示例

北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

图10 DrivingGaussian++动态场景模拟示例(在自车前方添加行驶的汽车与挖掘机)

秉承王选所“顶天立地”的优良传统,王勇涛团队在智能驾驶技术方向进行了不懈的探索,获得了国家科技创新2030重大项目课题、国家自然科学基金、华为、长安汽车等科研项目支持经费逾千万元,取得的多项成果得到了学术界和工业界的广泛关注、使用和好评。


版权声明:
文章来源北京大学,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议

2026冶金工程、桥隧建设与土木工程国际会议(MEBTCCE 2026)(2026-04-30)

第四届绿色建筑国际会议(ICOGB 2026)(2026-05-08)

2026年先进航空航天技术与卫星应用国际学术会议 (AATSA 2026)(2026-05-15)

2026年第四届亚洲计算机视觉、图像处理与模式识别国际会议(CVIPPR 2026)(2026-05-22)

2026年物理学、核能科学与能源科学国际会议(ICPNSES 2026)(2026-05-24)

2026年第五届网络、通信与信息技术国际会议(CNCIT 2026)(2026-05-29)

第九届统计与数据科学国际研讨会(SDS)(2026-05-29)

2026年数学、人工智能与金融学国际会议(ICMAIF 2026)(2026-06-15)

2026年生态环境保护与环境污染国际会议(ICEEPEP 2026)(2026-06-21)

2026年第11届信号与图像处理国际会议(ICSIP 2026)(2026-07-17)

2026能源、材料与环境工程国际会议(ICEME 2026)(2026-5-30)

2026生物科学、医药与医疗器械国际会议(ICBMMD 2026)(2026-4-30)

2026美术学、设计学与艺术学国际学术会议(ADAS 2026)(2026-5-30)

2026城市环保与城市管理国际会议(UEPUM 2026)(2026-4-30)

2026年动力系统与运载工具国际会议(ICPSV 2026)(2026-5-30)

2026人工智能、工业技术与自动化国际会议(ICAIITA 2026)(2026-5-30)

2026年云计算、物联网与深度学习国际会议(ICITDL 2026)(2026-4-30)

2026矿产资源、环保开采与岩土工程国际会议(MREPMGE 2026)(2026-5-30)

2026音乐史、艺术理论与文化研究国际会议(ICPGESI 2026)(2026-5-30)

2026年物理、化学与水处理技术国际会议(ICPCWT 2026)(2026-5-30)

小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。