当前位置:首页 >> 学术资讯 >> 科研信息

清华大学交叉信息研究院姚期智和袁洋领衔提出大语言模型“累积推理”框架

2024/03/29


近日,清华大学交叉信息研究院姚期智和袁洋领衔的研究团队提出“累积推理(Cumulative Reasoning, CR)”框架,显著提升了大语言模型(LLMs)解决复杂推理任务的准确度,特别是在逻辑推理和24点难题上实现了高达98%的准确率,在数学难题上(MATH Level 5)实现了42%的准确率相对提升。

尽管大语言模型已取得显著进步,但面对高度复杂的推理任务时,它们仍难以提供稳定且准确的答案。为突破这一局限性,此前学者已提出“思维链(Chain of Thought, CoT)”和“思维树(Tree of Thought, ToT)”等几种模仿人类“深思熟虑”且“逻辑性”的思维框架。但这些方法均未设置思维中间结果的储存位置,导致大语言模型不能更全面地模仿人类复杂的思维过程。为弥补这一研究空缺,研究团队提出了“累积推理”框架,尝试对思维过程进行更一般性地建模。

“累积推理”框架利用三个不同的大语言模型来解决复杂推理问题,包括提议者(Proposer)、验证者(Verifier)和报告者(Reporter)。其中,提议者基于现有前提(premises)和命题(propositions)提出一个或几个提案来启动该过程。随后,验证者评估该提案,确定该提案是否可以作为新的命题保留。最后,报告者决定是否是终止思考过程并提供最终答案的最佳时机。

20230926-论文配图1-摄影未知-配图.png

图1.累积推理框架用于解决含三个前提的问题

研究团队选择在FOLIO wiki和AutoTNLI、24点游戏、MATH数据集上对“累积推理”框架进行检验。结果表明,在FOLIO wiki和AutoTNLI数据集上“累积推理”框架始终优于现有方法,显示出高达9.3%的提升。特别是在校对后的FOLIO wiki curated数据集上,“累积推理”达到了98.04%的准确率。在围绕24点游戏的实验中,“累积推理”达到了98%的准确率。值得注意的是,与先前的最先进的方法ToT相比,这一数字有着高达24%的显著提升。MATH数据集的实验结果表明,“累积推理”算法在两种不同的实验设定下,均达到了超出当前已有算法的正确率。其中“累积推理”总体正确率可达58%,并在Level 5的难题中实现了42%的相对准确率提升,建立了GPT-4模型下的新SOTA。

图2.FOLIO wiki数据集对比测试结果

图3.AutoTNLI数据集对比测试结果

图4.24点游戏对比测试结果

图5.MATH数据集对比测试结果

“累积推理”框架不仅被证明可以在逻辑推理任务中实现更高的准确率,也为人工智能领域带来了新的启示和可能性。研究团队表示,随着这种“步步为营”的方法不断完善,在解决复杂的数学与科学问题上,人类有望迎来能够独立完成研究的人工智能数学家(AI Mathematician)。但研究者们承认,这样的远景目标仍面临“如何对大语言模型输出结果进行高效验证”“如何增加思考上下文的长度,以处理更加复杂的问题”等挑战。

论文来自清华大学交叉信息研究院姚期智院士和袁洋助理教授领衔的AI for Math研究团队。近日,该论文以“大语言模型的‘累积推理’框架(Cumulative Reasoning with Large Language Models)”为题发布于康奈尔大学ArXiv。论文共同通讯作者为姚期智和袁洋,论文共同第一作者为交叉信息研究院2021级博士生张伊凡、杨景钦。


版权声明:
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议

2026年先进航空航天技术与卫星应用国际学术会议 (AATSA 2026)(2026-05-15)

2026年第四届亚洲计算机视觉、图像处理与模式识别国际会议(CVIPPR 2026)(2026-05-22)

2026年物理学、核能科学与能源科学国际会议(ICPNSES 2026)(2026-05-24)

2026年第五届网络、通信与信息技术国际会议(CNCIT 2026)(2026-05-29)

第九届统计与数据科学国际研讨会(SDS)(2026-05-29)

第十届土木建筑与结构工程国际学术会议(I3CSE 2026)(2026-05-29)

第五届艺术设计与数字化技术国际学术会议(ADDT 2026)(2026-06-05)

第五届信号处理与通信安全国际学术会议(ICSPCS 2026)(2026-06-05)

第八届能源系统与电气电力国际学术会议(ICESEP 2026)(2026-06-05)

2026年智能机器人与控制技术国际会议(CIRCT 2026)(2026-06-12)

2026年矿山与工程测量国际会议(ICMES 2026)(2026-5-25)

2026年光学仪器、天文学与遥感技术国际会议(IARST 2026)(2026-5-18)

2026年化学工程与可再生能源国际会议(CERE 2026)(2026-5-23)

2026年激光、智能传感与通信技术国际会议(LISCT 2026)(2026-6-22)

2026年先进功能材料与机械工程国际会议(AFMME 2026)(2026-5-14)

2026年新能源、智能电网与储能系统国际会议(NESGESS 2026)(2026-5-15)

2026激光、电子与光学技术国际学术会议(ICLEOT 2026)(2026-5-20)

2026年环境资源与海洋工程国际会议(OEER 2026)(2026-5-26)

2026年城市规划、城乡发展与公共管理国际会议(UPURDPA 2026)(2026-5-31)

2026年机器视觉、数据挖掘与人工智能国际会议(ICMVDA 2026)(2026-5-31)

小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。