当前位置:首页 >> 学术资讯 >> 科研信息

清华大学交叉信息研究院姚期智和袁洋领衔提出大语言模型“累积推理”框架

2024/03/29


近日,清华大学交叉信息研究院姚期智和袁洋领衔的研究团队提出“累积推理(Cumulative Reasoning, CR)”框架,显著提升了大语言模型(LLMs)解决复杂推理任务的准确度,特别是在逻辑推理和24点难题上实现了高达98%的准确率,在数学难题上(MATH Level 5)实现了42%的准确率相对提升。

尽管大语言模型已取得显著进步,但面对高度复杂的推理任务时,它们仍难以提供稳定且准确的答案。为突破这一局限性,此前学者已提出“思维链(Chain of Thought, CoT)”和“思维树(Tree of Thought, ToT)”等几种模仿人类“深思熟虑”且“逻辑性”的思维框架。但这些方法均未设置思维中间结果的储存位置,导致大语言模型不能更全面地模仿人类复杂的思维过程。为弥补这一研究空缺,研究团队提出了“累积推理”框架,尝试对思维过程进行更一般性地建模。

“累积推理”框架利用三个不同的大语言模型来解决复杂推理问题,包括提议者(Proposer)、验证者(Verifier)和报告者(Reporter)。其中,提议者基于现有前提(premises)和命题(propositions)提出一个或几个提案来启动该过程。随后,验证者评估该提案,确定该提案是否可以作为新的命题保留。最后,报告者决定是否是终止思考过程并提供最终答案的最佳时机。

20230926-论文配图1-摄影未知-配图.png

图1.累积推理框架用于解决含三个前提的问题

研究团队选择在FOLIO wiki和AutoTNLI、24点游戏、MATH数据集上对“累积推理”框架进行检验。结果表明,在FOLIO wiki和AutoTNLI数据集上“累积推理”框架始终优于现有方法,显示出高达9.3%的提升。特别是在校对后的FOLIO wiki curated数据集上,“累积推理”达到了98.04%的准确率。在围绕24点游戏的实验中,“累积推理”达到了98%的准确率。值得注意的是,与先前的最先进的方法ToT相比,这一数字有着高达24%的显著提升。MATH数据集的实验结果表明,“累积推理”算法在两种不同的实验设定下,均达到了超出当前已有算法的正确率。其中“累积推理”总体正确率可达58%,并在Level 5的难题中实现了42%的相对准确率提升,建立了GPT-4模型下的新SOTA。

图2.FOLIO wiki数据集对比测试结果

图3.AutoTNLI数据集对比测试结果

图4.24点游戏对比测试结果

图5.MATH数据集对比测试结果

“累积推理”框架不仅被证明可以在逻辑推理任务中实现更高的准确率,也为人工智能领域带来了新的启示和可能性。研究团队表示,随着这种“步步为营”的方法不断完善,在解决复杂的数学与科学问题上,人类有望迎来能够独立完成研究的人工智能数学家(AI Mathematician)。但研究者们承认,这样的远景目标仍面临“如何对大语言模型输出结果进行高效验证”“如何增加思考上下文的长度,以处理更加复杂的问题”等挑战。

论文来自清华大学交叉信息研究院姚期智院士和袁洋助理教授领衔的AI for Math研究团队。近日,该论文以“大语言模型的‘累积推理’框架(Cumulative Reasoning with Large Language Models)”为题发布于康奈尔大学ArXiv。论文共同通讯作者为姚期智和袁洋,论文共同第一作者为交叉信息研究院2021级博士生张伊凡、杨景钦。


版权声明:
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议

2026年智慧交通与检测技术国际会议(ITDT 2026)(2026-03-25)

2026年第六届智能机器人系统国际会议(ISoIRS 2026)(2026-03-27)

2026年人工智能教育技术与数据科学国际学术会议(AIETDS 2026)(2026-03-27)

2026年IEEE第八届软件工程和计算机科学国际会议(CSECS 2026)(2026-04-17)

第十五届春季国际工程与技术大会 (SCET 2026)(2026-04-17)

2026年金融科技、创新与信息技术国际会议(2026-04-18)

2026年多尺度人工智能国际会议(MAI 2026)(2026-04-24)

第三届机器学习与智能计算国际学术会议(MLIC 2026)(2026-04-24)

2026 空天信息与产业创新国际学术研讨会暨第二届中国——塞尔维亚空天技术与产业应用研讨会(ISA3I 2026)(2026-04-24)

数字化教育系统与计算机科学国际学术会议(2026-04-24)

2026数字化经济、管理科学与企业管理国际会议(ICDEMSCM 2026)(2026-4-30)

2026年计算机与航空航天国际会议(IACACS 2026)(2026-4-28)

第六届肿瘤治疗与转化医学国际研讨会(CTTM 2026)(2026-11-27)

2026人机交互、智能系统与过程控制国际会议(HCISPC 2026)(2026-4-30)

第二届环境监测与生态修复国际学术会议(EMER 2026)(2026-3-27)

2026年未来教育与互联网国际会议(ICFEI 2026)(2026-4-27)

第二届人工智能与智能制造国际学术会议(ICAISM 2026)(2026-5-29)

2026互联网、人工智能与计算机应用国际会议(IAICA 2026)(2026-4-30)

2026年先进能源科学与储能技术国际会议(AESEST 2026)(2026-3-27)

2026年航空技术、无人机系统与控制工程国际会议(IATUSE 2026)(2026-4-28)

小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。
综合推荐区

学术科研网址导航,430+站,定制学术书签

2026年第五届云计算、计算机视觉和图像处理.

2026年动力学与机械工程国际学术研讨会 (.

2026年IEEE第八届软件工程和计算机科学.

2026年第八届计算机图形学、图像与可视化国.

第八届信息科学、电气与自动化工程国际学术会议.

第三届机器学习与智能计算国际学术会议(MLI.

第六届自动化控制、算法与智能仿生国际学术会议.

2026 年第三届计算,机器学习与数据科学国.

第十三届先进制造技术与材料工程国际学术会议 .

第二届人工智能与产品设计国际学术会议 (AI.

2026年多尺度人工智能国际会议(MAI 2.

2026年量子计算与人工智能国际学术会议(I.

2026年第六届计算机视觉与模式分析国际学术.

第七届机械仪表与自动化国际学术会议(ICMI.

2026年第四届亚洲机器学习、算法与神经网络.

2026年第四届亚洲计算机视觉、图像处理与模.

2026年人工智能与数据挖掘国际学术会议(A.

2026年IEEE第七届计算,网络与物联网国.

2026年第五届网络、通信与信息技术国际会议.

2026年智能机器人与控制技术国际会议(CI.

2026年传感器技术、自动化与智能制造国际会.

2026年智能系统与计算国际会议 (ICIS.

2026年电子, 通信与计算机科学国际会议 .

2026年IEEE第三届先进机器人, 自动化.

2026年第七届控制, 机器人与智能系统国际.