北京大学王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展
2026/04/21
近期,王选计算机研究所王勇涛团队针对智能驾驶场景下的多模态融合、开放世界感知、高阶端到端VLA智能驾驶系统、驾驶场景数据合成与重建等多个关键问题,先后提出了R4Det、VL-SAM v2、AutoOcc、OpenAD、KnowVal、DrivingGaussian++等系列工作,被人工智能领域顶级国际会议ICCV 2025、NeurIPS 2025、CVPR 2026和顶级国际期刊TPAMI发表/录用,同时申请了多项发明专利。
当前,新能源汽车成为了我国的支柱产业,而智能驾驶技术是发展新能源汽车产业的关键技术之一。然而,智能驾驶技术正面临着多个挑战,包括:
1. 多模态融合问题:智能驾驶车辆通常融合多种传感器以提升安全性与鲁棒性。其中,4D毫米波雷达-环视相机方案兼具高性能与高性价比,但对应的多模态数据差异较大,如何高效地进行融合是技术难点之一。
2. 开放世界感知问题:传统基于闭集范式的感知模型只能识别预设类别,无法处理未知类别物体进而导致事故。开集(open-set)、开放词汇(open-vocabulary)感知方法能感知任意对象,但需要用户持续输入提示词。开放式(open-ended)感知无需任何提示词即可感知所有物体,是智能驾驶领域的前沿挑战问题之一。
3. 高阶端到端VLA系统瓶颈:现有端到端、VLA智能驾驶系统系统存在三大缺陷:隐式规则学习导致罕见场景泛化差、可解释性差;模态推理割裂,VLA模型仅限语言推理,无法深度融合视觉感知与语言规则;价值对齐缺失,只优化轨迹误差,忽略交通法规、道德、防御性驾驶原则等人类偏好。
4. 场景数据合成与重建难题:高质量、多样化的驾驶场景数据对智能驾驶系统训练测试至关重要。常规方法(NeRF、3DGS)在动态大范围场景中重建精度低、成本高、编辑能力弱,难以高效合成复杂或稀有场景。
针对上述关键问题,王勇涛团队与合作者取得了如下多项智能驾驶技术新进展。
一、4D毫米波雷达-环视相机多模态感知架构R4Det(CVPR 2026)
R4Det针对绝对深度估计模块精度有限的问题,摒弃了稀疏的度量回归,引入序数排序损失;针对缺乏自车位姿时的时序融合问题,提出可变形门控时序融合模块,以对齐非刚性运动;针对小体积物体召回率和准确率低的问题,提出了实例引导的动态优化模块;取得了大幅领先的3D多模态检测结果。
图1 R4Det架构图
图2 R4Det取得了领先的3D目标检测结果
二、开放式目标检测和实例分割框架VL-SAM v2(NeurIPS 2025)
VL-SAM(NeurIPS 2024)是王勇涛团队提出的首个开放式目标检测和实例分割框架,无需提示词即可对任意类别物体进行检测和分割。VL-SAM v2进一步通过通专融合对稀有类别和常见类别目标均实现了优越的感知性能,在多个基准数据集上取得了领先的开放式感知结果。
图3 VL-SAM v2框架示意图
三、开放世界占据栅格自动标注系统AutoOcc(ICCV 2025)
AutoOcc是一个高效、高质量的开放式三维语义占据栅格(Occupancy)真值生成框架;基于视觉语言模型和视觉基础模型,进行多视图场景重建,无需任何人类标注即可超越现有占据栅格标注和预测管线,并展现良好的通用性和泛化能力,在多个评测基准及长安汽车等车企的业务数据上取得了媲美人类标注的结果。
图4 AutoOcc方法示意图
表1 在Occ3D-nuScenes基准上,AutoOcc取得了领先的占据栅格真值标注结果
表2 在SemanticKITTI基准上,AutoOcc取得了领先的跨数据集与未知类别的零样本泛化结果
四、开放世界驾驶场景感知评测基准及开放式3D目标检测算法OpenAD(NeurIPS 2025)
OpenAD是首个面向开放世界的驾驶场景感知评测基准,并同时提出了一个以视觉为中心的3D开放世界目标检测基线。OpenAD挑战赛长期公开开放(https://github.com/VDIGPKU/OpenAD),欢迎目标检测/3D感知/多模态大模型的研究者参与。
图5 OpenAD评测集长尾物体示意图
图6 OpenAD所提出的开放式3D目标检测基线示意图
五、检索增强与价值引导的智能驾驶VLA系统KnowVal (CVPR 2026)
KnowVal是首个对齐交通法规、道德、防御性驾驶原则等人类偏好的端到端智能驾驶VLA(视觉-语言-动作)系统。它通过通专融合的开放世界感知,进行实例特征抽取、场景特征抽取和检索引导的抽象元素理解;并对一个构建的包含了法律法规、道德原则、防御性驾驶原则的知识图谱进行感知引导的检索,得到相关性由高到低排列的知识条目及其特征词元;最后通过规划模块、隐式世界模型模块和价值模型,进行价值评估,选定规划轨迹。在多个国际基准上,KnowVal均取得了领先的自动驾驶结果。
图7 KnowVal系统示意图
表3 KnowVal在nuScenes(上方)、NAVSIM(左下)、Bench2Drive(右下)基准上取得领先的自动驾驶结果
六、面向动态驾驶场景的高质量重建与可控编辑框架DrivingGaussian++(TPAMI 2026)
DrivingGaussian++是一个面向大规模动态驾驶场景的高效重建与编辑框架,通过复合高斯重建将场景分解为静态背景与动态前景,分别进行增量式重建,支持免训练的三维场景可控编辑,包括纹理修改、天气模拟和物体操控等任务,显著提升了驾驶场景数据合成的真实感与多样性。
图8 DrivingGaussian++框架示意图
表4 DrivingGaussian++取得了领先的重建结果(上表)和场景编辑效果(下方四表)
图9 DrivingGaussian++编辑结果示例
图10 DrivingGaussian++动态场景模拟示例(在自车前方添加行驶的汽车与挖掘机)
秉承王选所“顶天立地”的优良传统,王勇涛团队在智能驾驶技术方向进行了不懈的探索,获得了国家科技创新2030重大项目课题、国家自然科学基金、华为、长安汽车等科研项目支持经费逾千万元,取得的多项成果得到了学术界和工业界的广泛关注、使用和好评。
文章来源北京大学,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年4月高录用检索快国际学术会 564
-
2026年第17届机械与航空航天工程 152
-
2026年先进航空航天技术与卫星应用 293
-
2026资源、化学化工与应用材料国际 1776
-
2026年图像处理与数字创意设计国际 1603
-
2026年机械工程,新能源与电气技术 6073
-
2026年材料科学、低碳技术与动力工 1797
-
2026 先进材料、增材制造与装备升 04-24
-
2026 云计算、大数据平台与信息系 04-24
-
2026 地质工程、矿产资源与绿色开 04-24
-
2026 虚拟现实、增强现实与数字孪 04-24
-
2026 园林工程、生态绿化与城市景 04-24
-
2026 影视传媒、动画设计与数字文 04-24
-
2026 数学建模、仿真分析与工程计 04-24
-
2026 数控技术、机械加工与智能装 04-24
-
2026年中科院期刊分区表(新锐2536
-
2025年两院院士增选有效候选人4397
-
2025最新JCR分区及影响因子12308
-
好学术:科研网址导航|学术头条分5663
-
2025年国际期刊预警名单发布!5826
-
2025年中科院期刊分区表重磅发20719
-
中国科协《重要学术会议目录(2011762
-
吉林大学校长张希:学术会议中的提6942
-
西安交大吴一平教授团队 首次在全04-28
-
西安交大靳立教授团队 揭示反铁电04-28
-
上海交大农生学院吴紫云团队发现钾04-28
-
北京大学城市与环境学院吴林蔚团队04-28
-
北京大学汇丰商学院谢觐助理教授合04-28
-
北京大学电子学院周小计、姚和朋团04-28
-
微生物快速鉴定有了新技术04-28
-
大连渤海明珠酒店 18544

-
亚泰RFID技术协会 23501

-
服务科学、管理与工程购机会务组 23393

-
安诺优达基因科技(北京)有限公司 8381

-
IAASE 2409

-
中国农学会 21473

-
中国科学技术信息研究所 18291

-
河北省青少年素质教育研究会邯郸基 8434

-
上海海事大学 23482

-
VFEAVW 8245

-
百奥泰国际会议(大连)有限公司 24158

-
云像(上海)数字技术有限公司 23338

-
北京积水潭医院 21444

-
宁波德泰中研信息科技有限公司 8281

-
集运电器有限公司 18403

-
中国环境科学学会 23219

-
常州武进假日酒店 21357

-
中国食品药品监管信息网 2233

-
HKSME 24168

-
全国医药技术市场协会 24280




















27


















































