清华大学车辆学院团队在强化学习领域取得重要进展
2025/05/19
近日,清华大学车辆与运载学院李克强院士、李升波教授团队在强化学习算法设计领域取得重要进展。团队针对工业对象的智能决策与控制需求,推出了DSAC(Distributional Soft Actor Critic)系列强化学习算法,解决了已有方法值函数学习不准、策略性能低下的难题,并于典型基准测试任务中取得了国际领先的SOTA性能。第一代DSAC算法发表于《IEEE神经网络与学习系统汇刊》(IEEE Transactions on Neural Networks and Learning Systems)(2022),第二代发表于《IEEE模式分析与机器智能汇刊》(IEEE Transactions on Pattern Analysis and Machine Intelligence)(2025)。
强化学习在具身智能控制(如自动驾驶、机器人等)任务中展现出巨大潜力,但主流方法长期面临“值函数过估计”难题。简而言之,贝尔曼方程的迭代求解过程中,因为最大化算子的存在,易造成值函数(即性能衡量指标)误差向单一方向持续累积,导致策略学习严重偏离最优解。该问题最早在1993年由斯坦福大学的学者从算法实验中发现,进入深度强化学习阶段之后,因神经网络拟合速度慢以及固有训练误差的存在,导致过估计问题更加严峻。自2010年开始,Deepmind、麦吉尔大学的科学家先后提出了Double Q-learning、Clipped Double-Q等一系列措施,尝试使用双函数互相矫正的思想解决单一函数的计算误差。这些措施虽然在一定程度上抑制了值函数的过估计问题,但是对于高维非线性任务,仍面临值函数学习不准、策略性能低下的瓶颈难题。
图1.DSAC算法核心架构和关键技术
自2019年开始,车辆学院研究团队聚焦“如何提高强化学习算法性能”这一问题开展攻关。首次发现了值分布函数(distributional value function)的估计偏差调节机制,证明了过估计偏差与值分布方差呈反比的结论。团队将这一机制与最大熵框架结合,把策略优化目标的刻画从单一维度扩展为无穷维度,以此为基础提出了第一代DSAC算法,极大提升了复杂工业控制任务的学习性能。为进一步改进该算法的迭代稳定性,并降低参数敏感度,团队提出了三项全新的值分布梯度修正技术,即Expected Value Substituting(EVS)、Twin Value Distribution Learning(TVDL)和Variance-Based Critic Gradient Adjustment(VCGA),并将其嵌入到第二代DSAC算法中(又称为DSAC-T)。EVS的原理是在训练值分布网络时以期望目标值替代单次随机样本,显著降低梯度方差,提高学习稳定性。TVDL的原理是并行训练两个独立值分布网络,借鉴Double Q-learning的思路,在更新时选取更保守的一方,进一步抑制过估计误差。VCGA的原理是根据值分布方差自适应缩放值分布函数更新梯度,使算法在不同任务和参数设定下都能保持稳定且一致的性能。标准测试环境的实验表明,DSAC算法的综合表现全面超越SAC(UC Berkeley)、TD3(McGill)、DDPG(DeepMind)、TRPO(UC Berkeley)、PPO(OpenAI)等主流强化学习算法。
图2.典型任务的性能对比
目前,研究团队已将DSAC两代算法进行了开源,并集成于自主研发的GOPS工具链,以方便学术界与工业界验证与使用。该算法已应用于端到端自动驾驶、具身智能机器人、工程机械无人作业等领域的模型训练,与滴滴、广汽、东风、一汽、宝武等龙头企业开展产业应用服务。该项目得到国家“十四五”重点研发计划、国家自然科学基金、北京市自然科学基金及清华大学自主科研计划的资助。
文章来源清华大学新闻网,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年第五届机器学习、云计算与智 26
-
2026年第二届计算机视觉与机器学习 627
-
2026年6月优质国际学术会议推荐 1157
-
2026年智慧教育与数据挖掘国际学术 813
-
2026年第11届生物医学信号与图像 697
-
2026资源、化学化工与应用材料国际 2559
-
2026年图像处理与数字创意设计国际 2369
-
2026年机械工程,新能源与电气技术 6849
-
2026年材料科学、低碳技术与动力工 2524
-
2026年海洋科学、水利工程与环境管 06-18
-
2026年环境工程、材料科学与循环经 06-18
-
2026年航空动力、流体力学与热物理 06-18
-
2026年地球化学、核物理与地质学国 06-18
-
2026年微机电、物理学与建模仿真国 06-18
-
2026年机械工程、电子技术与自动化 06-18
-
2026 JCR影响因子正式发布272
-
中国科协发布2025年《重要学术858
-
2026年新锐分区(原中科院期刊5648
-
2025年两院院士增选有效候选人5280
-
好学术:科研网址导航|学术头条分6842
-
2025年国际期刊预警名单发布!7028
-
2025年中科院期刊分区表重磅发24788
-
吉林大学校长张希:学术会议中的提8093
-
研究表明太阳耀斑终端激波可作为地06-24
-
研究揭示藻—菌共生体系强化养殖尾06-24
-
双功能手性双核镍催化研究获进展06-24
-
研究发现银河系中心极端环境下大质06-24
-
废塑料升级利用研究取得进展06-24
-
硒太阳能电池研究取得进展06-24
-
南京大学王涛团队首次发现110亿06-24
-
HKSME 23416

-
上海理工大学生物医学热科学研究所 18625

-
武汉木兰风光会议服务有限公司 18360

-
上海第二工业大学 2332

-
华北电力大学 21562

-
中国海关出版社 24648

-
广播电视中心文山人民广播电台 18294

-
中国中医科学院广安门医院肿瘤研究 18413

-
HKSME 24566

-
百奥泰国际会议(大连)有限公司 2363

-
易科学 23526

-
武汉美亚会展服务有限公司 21330

-
北京建筑工程学院 21246

-
上海优势商务咨询有限公司 21335

-
中国科技大学 2513

-
合肥南辰数字科技有限公司 8414

-
华源科创(北京)信息咨询有限公司 8538

-
山西师范大学 24396

-
上海中国汽车会议网 24576

-
中国自动化学会 21390





















1677











































