当前位置:首页 >> 学术资讯 >> 科研信息

清华大学交叉信息研究院姚期智和袁洋领衔提出大语言模型“累积推理”框架

2024/03/29


近日,清华大学交叉信息研究院姚期智和袁洋领衔的研究团队提出“累积推理(Cumulative Reasoning, CR)”框架,显著提升了大语言模型(LLMs)解决复杂推理任务的准确度,特别是在逻辑推理和24点难题上实现了高达98%的准确率,在数学难题上(MATH Level 5)实现了42%的准确率相对提升。

尽管大语言模型已取得显著进步,但面对高度复杂的推理任务时,它们仍难以提供稳定且准确的答案。为突破这一局限性,此前学者已提出“思维链(Chain of Thought, CoT)”和“思维树(Tree of Thought, ToT)”等几种模仿人类“深思熟虑”且“逻辑性”的思维框架。但这些方法均未设置思维中间结果的储存位置,导致大语言模型不能更全面地模仿人类复杂的思维过程。为弥补这一研究空缺,研究团队提出了“累积推理”框架,尝试对思维过程进行更一般性地建模。

“累积推理”框架利用三个不同的大语言模型来解决复杂推理问题,包括提议者(Proposer)、验证者(Verifier)和报告者(Reporter)。其中,提议者基于现有前提(premises)和命题(propositions)提出一个或几个提案来启动该过程。随后,验证者评估该提案,确定该提案是否可以作为新的命题保留。最后,报告者决定是否是终止思考过程并提供最终答案的最佳时机。

20230926-论文配图1-摄影未知-配图.png

图1.累积推理框架用于解决含三个前提的问题

研究团队选择在FOLIO wiki和AutoTNLI、24点游戏、MATH数据集上对“累积推理”框架进行检验。结果表明,在FOLIO wiki和AutoTNLI数据集上“累积推理”框架始终优于现有方法,显示出高达9.3%的提升。特别是在校对后的FOLIO wiki curated数据集上,“累积推理”达到了98.04%的准确率。在围绕24点游戏的实验中,“累积推理”达到了98%的准确率。值得注意的是,与先前的最先进的方法ToT相比,这一数字有着高达24%的显著提升。MATH数据集的实验结果表明,“累积推理”算法在两种不同的实验设定下,均达到了超出当前已有算法的正确率。其中“累积推理”总体正确率可达58%,并在Level 5的难题中实现了42%的相对准确率提升,建立了GPT-4模型下的新SOTA。

图2.FOLIO wiki数据集对比测试结果

图3.AutoTNLI数据集对比测试结果

图4.24点游戏对比测试结果

图5.MATH数据集对比测试结果

“累积推理”框架不仅被证明可以在逻辑推理任务中实现更高的准确率,也为人工智能领域带来了新的启示和可能性。研究团队表示,随着这种“步步为营”的方法不断完善,在解决复杂的数学与科学问题上,人类有望迎来能够独立完成研究的人工智能数学家(AI Mathematician)。但研究者们承认,这样的远景目标仍面临“如何对大语言模型输出结果进行高效验证”“如何增加思考上下文的长度,以处理更加复杂的问题”等挑战。

论文来自清华大学交叉信息研究院姚期智院士和袁洋助理教授领衔的AI for Math研究团队。近日,该论文以“大语言模型的‘累积推理’框架(Cumulative Reasoning with Large Language Models)”为题发布于康奈尔大学ArXiv。论文共同通讯作者为姚期智和袁洋,论文共同第一作者为交叉信息研究院2021级博士生张伊凡、杨景钦。


版权声明:
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议

2025年清洁能源、电力系统与可持续发展国际会议(CEPSSD 2025)(2025-10-28)

2025年电力系统与电器工程国际会议(ICPSEE 2025)(2025-10-29)

2025年第四届计算与人工智能国际会议(ISCAI 2025)(2025-11-14)

2025年设计、数字媒体与多媒体技术国际会议(DDMMT 2025)(2025-11-20)

2025年IEEE电路与系统前沿技术国际会议(FTCS 2025)(2025-11-21)

第一届光电材料与电子信息工程国际学术会议 (OMEIE 2025)(2025-11-21)

2025年船舶、海洋工程与应用技术国际会议(ICSOEAT 2025)(2025-11-24)

第二届自动化、电气控制系统与设备国际学术会议(AECSE 2025)(2025-11-28)

第五届肿瘤治疗与转化医学国际研讨会(CTTM 2025)(2025-11-28)

2025年机械电子与自动化国际研讨会(ISMA 2025)(2025-11-28)

2025通信工程、信号处理与网络技术国际会议(CESPNT 2025)(2025-12-18)

2025年文学、人文艺术与语言教育国际会议(LHALE 2025)(2025-12-25)

2025年区块链、大数据与物联网国际学术会议(BBDIT 2025)(2025-11-5)

2025年信息技术、教育发展与人才培养国际会议(ITEDTC 2025)(2025-11-30)

2025电子信息、智能系统与数据处理国际会议(EIISDP 2025)(2025-12-15)

2025应用化学、能源化学与环境国际会议(ICACECE 2025)(2025-12-9)

2025年国际关系、政治学与公共管理国际会议(ICIRPSPM 2025)(2025-12-24)

2025年能源、自动化工程与电气国际会议(EAEEE 2025)(2025-11-25)

2025航空航天与控制、信息工程国际会议(ICACLE 2025)(2025-11-8)

2025金融创新、数字经济与信息化管理国际会议(FIDEIM 2025)(2025-11-27)

小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。