清华大学交叉信息研究院姚期智和袁洋领衔提出大语言模型“累积推理”框架
2024/03/29
近日,清华大学交叉信息研究院姚期智和袁洋领衔的研究团队提出“累积推理(Cumulative Reasoning, CR)”框架,显著提升了大语言模型(LLMs)解决复杂推理任务的准确度,特别是在逻辑推理和24点难题上实现了高达98%的准确率,在数学难题上(MATH Level 5)实现了42%的准确率相对提升。
尽管大语言模型已取得显著进步,但面对高度复杂的推理任务时,它们仍难以提供稳定且准确的答案。为突破这一局限性,此前学者已提出“思维链(Chain of Thought, CoT)”和“思维树(Tree of Thought, ToT)”等几种模仿人类“深思熟虑”且“逻辑性”的思维框架。但这些方法均未设置思维中间结果的储存位置,导致大语言模型不能更全面地模仿人类复杂的思维过程。为弥补这一研究空缺,研究团队提出了“累积推理”框架,尝试对思维过程进行更一般性地建模。
“累积推理”框架利用三个不同的大语言模型来解决复杂推理问题,包括提议者(Proposer)、验证者(Verifier)和报告者(Reporter)。其中,提议者基于现有前提(premises)和命题(propositions)提出一个或几个提案来启动该过程。随后,验证者评估该提案,确定该提案是否可以作为新的命题保留。最后,报告者决定是否是终止思考过程并提供最终答案的最佳时机。

图1.累积推理框架用于解决含三个前提的问题
研究团队选择在FOLIO wiki和AutoTNLI、24点游戏、MATH数据集上对“累积推理”框架进行检验。结果表明,在FOLIO wiki和AutoTNLI数据集上“累积推理”框架始终优于现有方法,显示出高达9.3%的提升。特别是在校对后的FOLIO wiki curated数据集上,“累积推理”达到了98.04%的准确率。在围绕24点游戏的实验中,“累积推理”达到了98%的准确率。值得注意的是,与先前的最先进的方法ToT相比,这一数字有着高达24%的显著提升。MATH数据集的实验结果表明,“累积推理”算法在两种不同的实验设定下,均达到了超出当前已有算法的正确率。其中“累积推理”总体正确率可达58%,并在Level 5的难题中实现了42%的相对准确率提升,建立了GPT-4模型下的新SOTA。

图2.FOLIO wiki数据集对比测试结果

图3.AutoTNLI数据集对比测试结果

图4.24点游戏对比测试结果

图5.MATH数据集对比测试结果
“累积推理”框架不仅被证明可以在逻辑推理任务中实现更高的准确率,也为人工智能领域带来了新的启示和可能性。研究团队表示,随着这种“步步为营”的方法不断完善,在解决复杂的数学与科学问题上,人类有望迎来能够独立完成研究的人工智能数学家(AI Mathematician)。但研究者们承认,这样的远景目标仍面临“如何对大语言模型输出结果进行高效验证”“如何增加思考上下文的长度,以处理更加复杂的问题”等挑战。
论文来自清华大学交叉信息研究院姚期智院士和袁洋助理教授领衔的AI for Math研究团队。近日,该论文以“大语言模型的‘累积推理’框架(Cumulative Reasoning with Large Language Models)”为题发布于康奈尔大学ArXiv。论文共同通讯作者为姚期智和袁洋,论文共同第一作者为交叉信息研究院2021级博士生张伊凡、杨景钦。
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
- 
  2025年11月优质学术会议推荐 16
   - 
  2025年机器视觉、智能成像与模式识 392
   - 
  2025年第七届控制与机器人国际会议 576
   - 
  2025年智能光子学与应用技术国际学 1529
   - 
  2025年机械工程,新能源与电气技术 1790
   - 
  2025年计算机科学、图像分析与信号 2065
   - 
  2025年材料化学与燃料电池技术国际 1861
   - 
  2025年自动化前沿系统、智慧城市与 10-23
   - 
  2025年信息光学、遥感技术与机器视 10-23
   - 
  2025年数字人文、文化遗产与语言学 10-23
   - 
  2025年神经科学、生物信息学与智能 10-23
   - 
  2025年语言认知、人工智能与计算建 10-23
   - 
  2025年社会科学、应用语言学与人文 10-23
   - 
  2025年传统机械、动力学与智能装备 10-23
   - 
  2025年图像处理、物理建模与结构设 10-23
   
- 
  2025年两院院士增选有效候选人1145
 - 
  2025最新JCR分区及影响因子4758
 - 
  好学术:科研网址导航|学术头条分2033
 - 
  2025年国际期刊预警名单发布!1930
 - 
  2025年中科院期刊分区表重磅发8447
 - 
  中国科协《重要学术会议目录(205134
 - 
  吉林大学校长张希:学术会议中的提2840
 - 
  清华大学地学系阳坤课题组揭示全球10-20
 - 
  历史时期极端干旱灾害的数据评估和10-20
 - 
  “清华化学百年论坛:塑造化学的未10-20
 - 
  研究揭示植物激素独脚金内酯作为跨10-20
 - 
  清华大学联合研发的“46MW大容10-20
 - 
  清华大学(软件学院)-九疆电力建10-20
 - 
  中国农业大学土地学院马韫韬教授团10-20
 - 
  电子科技大学光电学院本科生在一区10-20
 
- 
  北京金华科技有限公司 18014

 - 
  中国能源环境科技协会 23144

 - 
  津安商务(天津)旅游会议有限公司 23160

 - 
  北京化工大学 24334

 - 
  上海脑华商务咨询有限公司 8652

 - 
  上海茂发会展服务有限公司 23230

 - 
  华南师范大学化学与环境学院 21167

 - 
  北京中卓佳创教育科技有限公司 21043

 - 
  郑州迎春会议策划有限公司 24103

 - 
  南昌明月风光会展服务有限公司 17989

 - 
  北京齐鸣经纪文化发展公司 17995

 - 
  怀思会议 22964

 - 
  佛山市顺德区美的微波电器制造有限 23334

 - 
  SG 8077

 - 
  大连理工大学 23034

 - 
  中国材料研究会 21156

 - 
  华中师范大学 18062

 - 
  北京爱德迈德广告有限公司 8135

 - 
  北京恒星瑞祥礼品有限公司 23630

 - 
  北京会唐世纪科技有限公司 20999

 
						
					 
					















 704











































						
						