北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展
2026/04/21
近期,王选计算机研究所王勇涛团队针对智能驾驶场景下的多模态融合、开放世界感知、高阶端到端VLA智能驾驶系统、驾驶场景数据合成与重建等多个关键问题,先后提出了R4Det、VL-SAM v2、AutoOcc、OpenAD、KnowVal、DrivingGaussian++等系列工作,被人工智能领域顶级国际会议ICCV 2025、NeurIPS 2025、CVPR 2026和顶级国际期刊TPAMI发表/录用,同时申请了多项发明专利。
当前,新能源汽车成为了我国的支柱产业,而智能驾驶技术是发展新能源汽车产业的关键技术之一。然而,智能驾驶技术正面临着多个挑战,包括:
1. 多模态融合问题:智能驾驶车辆通常融合多种传感器以提升安全性与鲁棒性。其中,4D毫米波雷达-环视相机方案兼具高性能与高性价比,但对应的多模态数据差异较大,如何高效地进行融合是技术难点之一。
2. 开放世界感知问题:传统基于闭集范式的感知模型只能识别预设类别,无法处理未知类别物体进而导致事故。开集(open-set)、开放词汇(open-vocabulary)感知方法能感知任意对象,但需要用户持续输入提示词。开放式(open-ended)感知无需任何提示词即可感知所有物体,是智能驾驶领域的前沿挑战问题之一。
3. 高阶端到端VLA系统瓶颈:现有端到端、VLA智能驾驶系统系统存在三大缺陷:隐式规则学习导致罕见场景泛化差、可解释性差;模态推理割裂,VLA模型仅限语言推理,无法深度融合视觉感知与语言规则;价值对齐缺失,只优化轨迹误差,忽略交通法规、道德、防御性驾驶原则等人类偏好。
4. 场景数据合成与重建难题:高质量、多样化的驾驶场景数据对智能驾驶系统训练测试至关重要。常规方法(NeRF、3DGS)在动态大范围场景中重建精度低、成本高、编辑能力弱,难以高效合成复杂或稀有场景。
针对上述关键问题,王勇涛团队与合作者取得了如下多项智能驾驶技术新进展。
一、4D毫米波雷达-环视相机多模态感知架构R4Det(CVPR 2026)
R4Det针对绝对深度估计模块精度有限的问题,摒弃了稀疏的度量回归,引入序数排序损失;针对缺乏自车位姿时的时序融合问题,提出可变形门控时序融合模块,以对齐非刚性运动;针对小体积物体召回率和准确率低的问题,提出了实例引导的动态优化模块;取得了大幅领先的3D多模态检测结果。
图1 R4Det架构图
图2 R4Det取得了领先的3D目标检测结果
二、开放式目标检测和实例分割框架VL-SAM v2(NeurIPS 2025)
VL-SAM(NeurIPS 2024)是王勇涛团队提出的首个开放式目标检测和实例分割框架,无需提示词即可对任意类别物体进行检测和分割。VL-SAM v2进一步通过通专融合对稀有类别和常见类别目标均实现了优越的感知性能,在多个基准数据集上取得了领先的开放式感知结果。
图3 VL-SAM v2框架示意图
三、开放世界占据栅格自动标注系统AutoOcc(ICCV 2025)
AutoOcc是一个高效、高质量的开放式三维语义占据栅格(Occupancy)真值生成框架;基于视觉语言模型和视觉基础模型,进行多视图场景重建,无需任何人类标注即可超越现有占据栅格标注和预测管线,并展现良好的通用性和泛化能力,在多个评测基准及长安汽车等车企的业务数据上取得了媲美人类标注的结果。
图4 AutoOcc方法示意图
表1 在Occ3D-nuScenes基准上,AutoOcc取得了领先的占据栅格真值标注结果
表2 在SemanticKITTI基准上,AutoOcc取得了领先的跨数据集与未知类别的零样本泛化结果
四、开放世界驾驶场景感知评测基准及开放式3D目标检测算法OpenAD(NeurIPS 2025)
OpenAD是首个面向开放世界的驾驶场景感知评测基准,并同时提出了一个以视觉为中心的3D开放世界目标检测基线。OpenAD挑战赛长期公开开放(https://github.com/VDIGPKU/OpenAD),欢迎目标检测/3D感知/多模态大模型的研究者参与。
图5 OpenAD评测集长尾物体示意图
图6 OpenAD所提出的开放式3D目标检测基线示意图
五、检索增强与价值引导的智能驾驶VLA系统KnowVal (CVPR 2026)
KnowVal是首个对齐交通法规、道德、防御性驾驶原则等人类偏好的端到端智能驾驶VLA(视觉-语言-动作)系统。它通过通专融合的开放世界感知,进行实例特征抽取、场景特征抽取和检索引导的抽象元素理解;并对一个构建的包含了法律法规、道德原则、防御性驾驶原则的知识图谱进行感知引导的检索,得到相关性由高到低排列的知识条目及其特征词元;最后通过规划模块、隐式世界模型模块和价值模型,进行价值评估,选定规划轨迹。在多个国际基准上,KnowVal均取得了领先的自动驾驶结果。
图7 KnowVal系统示意图
表3 KnowVal在nuScenes(上方)、NAVSIM(左下)、Bench2Drive(右下)基准上取得领先的自动驾驶结果
六、面向动态驾驶场景的高质量重建与可控编辑框架DrivingGaussian++(TPAMI 2026)
DrivingGaussian++是一个面向大规模动态驾驶场景的高效重建与编辑框架,通过复合高斯重建将场景分解为静态背景与动态前景,分别进行增量式重建,支持免训练的三维场景可控编辑,包括纹理修改、天气模拟和物体操控等任务,显著提升了驾驶场景数据合成的真实感与多样性。
图8 DrivingGaussian++框架示意图
表4 DrivingGaussian++取得了领先的重建结果(上表)和场景编辑效果(下方四表)
图9 DrivingGaussian++编辑结果示例
图10 DrivingGaussian++动态场景模拟示例(在自车前方添加行驶的汽车与挖掘机)
秉承王选所“顶天立地”的优良传统,王勇涛团队在智能驾驶技术方向进行了不懈的探索,获得了国家科技创新2030重大项目课题、国家自然科学基金、华为、长安汽车等科研项目支持经费逾千万元,取得的多项成果得到了学术界和工业界的广泛关注、使用和好评。
文章来源北京大学,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年第五届机器学习、云计算与智 26
-
2026年第二届计算机视觉与机器学习 627
-
2026年6月优质国际学术会议推荐 1157
-
2026年智慧教育与数据挖掘国际学术 813
-
2026年第11届生物医学信号与图像 697
-
2026资源、化学化工与应用材料国际 2559
-
2026年图像处理与数字创意设计国际 2369
-
2026年机械工程,新能源与电气技术 6849
-
2026年材料科学、低碳技术与动力工 2524
-
2026年海洋科学、水利工程与环境管 06-18
-
2026年环境工程、材料科学与循环经 06-18
-
2026年航空动力、流体力学与热物理 06-18
-
2026年地球化学、核物理与地质学国 06-18
-
2026年微机电、物理学与建模仿真国 06-18
-
2026年机械工程、电子技术与自动化 06-18
-
2026 JCR影响因子正式发布272
-
中国科协发布2025年《重要学术858
-
2026年新锐分区(原中科院期刊5648
-
2025年两院院士增选有效候选人5280
-
好学术:科研网址导航|学术头条分6842
-
2025年国际期刊预警名单发布!7028
-
2025年中科院期刊分区表重磅发24788
-
吉林大学校长张希:学术会议中的提8093
-
研究表明太阳耀斑终端激波可作为地06-24
-
研究揭示藻—菌共生体系强化养殖尾06-24
-
双功能手性双核镍催化研究获进展06-24
-
研究发现银河系中心极端环境下大质06-24
-
废塑料升级利用研究取得进展06-24
-
硒太阳能电池研究取得进展06-24
-
南京大学王涛团队首次发现110亿06-24
-
深圳鸿丰大酒店 18370

-
RH 8412

-
湖北华来生物科技有限公司 21305

-
国际工学技术出版协会 24321

-
清华大学经管学院 2519

-
山东上观文化科技集团有限公司 9421

-
CECSF 23609

-
天津大学 8802

-
2016先进材料研究与应用国际会 2484

-
上海信世展览服务有限公司 23372

-
西安海外会议服务公司 23586

-
武汉依埃斯威广告公司 23397

-
全球资讯网兰乔圣菲 21519

-
上海麦峰医学科技有限公司 24473

-
Charlesworth Chi 23387

-
深圳市生物医药促进会 2568

-
WW 8678

-
2018第二届教育与社会发展国际 23415

-
jieda 21527

-
中国人民大学 21532





















116






















































