当前位置:首页 >> 学术资讯 >> 科研信息

清华大学自动化系团队在第39届神经信息处理系统会议上获论文亚军奖

2025/12/15

文章导读
当强化学习遇见大语言模型,我们是否高估了它的能力?清华团队在国际顶会NeurIPS上以颠覆性研究斩获最佳论文亚军,直击学术界普遍假设的核心痛点!其论文精妙揭示:强化学习虽能提高输出效率,却无法突破基础模型的推理边界——它只是在已知分布中优化。这一重磅发现不仅颠覆了RLVR训练的传统认知,更将激发人类重新设计强化学习范式,以真正解锁大模型的无限潜能。想知道这记警钟如何敲响?两位青年学者如何完成关键论证?点击解密人工智能的认知边界突破战!
— 内容由好学术AI分析文章内容生成,仅供参考。

12月6日,在美国圣地亚哥举行的第39届神经信息处理系统会议(Conference on Neural Information Processing Systems,NeurIPS)上,清华大学自动化系宋士吉教授、黄高副教授团队的论文“强化学习是否真的能激发大语言模型产生超越基础模型的推理能力?”(Does reinforcement learning really incentivize reasoning capacity in LLMs beyond the base model?)获得最佳论文亚军奖(Best Paper Runner-Up Award)。

清华大学自动化系团队在第39届神经信息处理系统会议上获最佳论文亚军奖

获奖合影(中间三位为自动化系获奖学生)

清华大学自动化系团队在第39届神经信息处理系统会议上获最佳论文亚军奖

获奖证书

评审委员会对该论文的评价为:“本文针对大语言模型(LLM)研究中一个被广泛接受的基础性假设——带有可验证奖励的强化学习(RLVR)激发了大模型新的推理能力——给出了一种精妙且至关重要的否定性发现。研究表明,在不同的模型类型、任务和算法中,RLVR训练虽能提高正确输出的采样效率,却无法拓展基础模型已有的推理能力。强化学习缩小了探索范围,受奖励的轨迹得到强化,但更广泛的解决方案空间却缩小了。这表明RLVR是在基础分布范围内进行优化,而非超越基础分布。这是一项重要发现,有望激励人们研发全新的强化学习范式,使其能够应对广阔的动作空间,并真正拓展大语言模型的推理能力。”

论文两位共同第一作者分别为清华大学自动化系2021级博士生乐洋和2022级本科生陈之琪。

NeurIPS是人工智能领域的旗舰学术会议之一,其最佳论文奖旨在表彰在机器学习、人工智能及相关领域中具有卓越创新性、重大影响力并能推动学术前沿发展的研究工作。


版权声明:
文章来源清华大学,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议

2026年智慧交通与检测技术国际会议(ITDT 2026)(2026-03-25)

2026年第六届智能机器人系统国际会议(ISoIRS 2026)(2026-03-27)

2026年人工智能教育技术与数据科学国际学术会议(AIETDS 2026)(2026-03-27)

2026年IEEE第八届软件工程和计算机科学国际会议(CSECS 2026)(2026-04-17)

第十五届春季国际工程与技术大会 (SCET 2026)(2026-04-17)

2026年金融科技、创新与信息技术国际会议(2026-04-18)

2026年多尺度人工智能国际会议(MAI 2026)(2026-04-24)

第三届机器学习与智能计算国际学术会议(MLIC 2026)(2026-04-24)

2026 空天信息与产业创新国际学术研讨会暨第二届中国——塞尔维亚空天技术与产业应用研讨会(ISA3I 2026)(2026-04-24)

数字化教育系统与计算机科学国际学术会议(2026-04-24)

2026年能源、区域经济与可持续发展国际会议(REESD 2026)(2026-4-28)

2026年矿产资源与地质勘探国际会议(IACMRGE 2026)(2026-3-27)

2026年跨文化沟通、心理健康与语言教育国际会议(ICMLE 2026)(2026-4-27)

2026年互联网科学与信息管理国际会议(ICISIM 2026)(2026-3-29)

2026数据挖掘、项目管理与人工智能国际会议(DMPMAI 2026)(2026-3-29)

第十届亚太数字信号处理会议(原名: 数字信号处理国际会议ICDSP系列会议) APDSP 2026(2026-3-28)

2026年计算生物学、信号处理与神经网络应用国际会议(BSPNA 2026)(2026-4-30)

2026年第七届亚洲可再生能源与环境工程会议 (AREEE 2026)(2026-3-28)

2026年智能驾驶、智能传感与自动化国际会议(IDISA 2026)(2026-4-30)

2026 船舶工程、海洋装备与深海技术国际会议(MSEOEDT 2026)(2026-3-27)

小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。
综合推荐区

学术科研网址导航,430+站,定制学术书签

2026年第五届云计算、计算机视觉和图像处理.

2026年动力学与机械工程国际学术研讨会 (.

2026年IEEE第八届软件工程和计算机科学.

2026年第八届计算机图形学、图像与可视化国.

第八届信息科学、电气与自动化工程国际学术会议.

第三届机器学习与智能计算国际学术会议(MLI.

第六届自动化控制、算法与智能仿生国际学术会议.

2026 年第三届计算,机器学习与数据科学国.

第十三届先进制造技术与材料工程国际学术会议 .

第二届人工智能与产品设计国际学术会议 (AI.

2026年多尺度人工智能国际会议(MAI 2.

2026年量子计算与人工智能国际学术会议(I.

2026年第六届计算机视觉与模式分析国际学术.

第七届机械仪表与自动化国际学术会议(ICMI.

2026年第四届亚洲机器学习、算法与神经网络.

2026年第四届亚洲计算机视觉、图像处理与模.

2026年人工智能与数据挖掘国际学术会议(A.

2026年IEEE第七届计算,网络与物联网国.

2026年第五届网络、通信与信息技术国际会议.

2026年智能机器人与控制技术国际会议(CI.

2026年传感器技术、自动化与智能制造国际会.

2026年智能系统与计算国际会议 (ICIS.

2026年电子, 通信与计算机科学国际会议 .

2026年IEEE第三届先进机器人, 自动化.

2026年第七届控制, 机器人与智能系统国际.