清华大学交叉信息研究院姚期智和袁洋领衔提出大语言模型“累积推理”框架_科研信息_学术资讯

当前位置：首页 >> 学术资讯 >> 科研信息

2026年传感器技术、自动化与智能制造国际会议（STAIM 2026）

第十一届材料科学与工程国际学术会议(ISAMSE 2026）

第二届导航、检测与控制国际学术会议（CNDC 2026)

第三届图像处理、多媒体技术与机器学习国际学术会议（IPMML 2026）

2026年智能医学与图像计算国际会议 (IMIC 2026)

第三届虚拟现实、图像和信号处理国际学术会议（VRISP 2026）

2026年具身智能、机器人与控制系统国际学术会议（EIRCS 2026）

第五届信息经济、数据建模与云计算国际学术会议（ICIDC 2026）

第三届数字媒体、通信与信息系统国际学术会议（DMCIS 2026）

2026年智能机器人与控制技术国际会议（CIRCT 2026）

第五届机械电子工程与人工智能国际学术会议（MEAI 2026）

第六届先进制造技术与电子信息国际学术会议（AMTEI 2026）

第十一届计算机与信息处理技术国际学术研讨会（ISCIPT 2026）

第三届大数据、神经网络与深度学习研讨会（BDNNDL 2026）

第六届计算机视觉、应用与算法国际学术会议（CVAA 2026）

2026年IEEE计算机通信、信息系统与网络安全国际会议(CCISC 2026)

2026年第五届算法、数据挖掘和信息技术国际会议(ADMIT 2026)

2026年人工智能与机器人系统国际会议(ICAIRS 2026)

2026年IEEE人工智能、大数据与云计算国际会议 (AIBDCC 2026)

2026年IEEE第二届电力与可持续能源技术国际会议(PSETC 2026)

清华大学交叉信息研究院姚期智和袁洋领衔提出大语言模型“累积推理”框架

2024/03/29

近日，清华大学交叉信息研究院姚期智和袁洋领衔的研究团队提出“累积推理（Cumulative Reasoning, CR）”框架，显著提升了大语言模型（LLMs）解决复杂推理任务的准确度，特别是在逻辑推理和24点难题上实现了高达98%的准确率，在数学难题上（MATH Level 5）实现了42%的准确率相对提升。

尽管大语言模型已取得显著进步，但面对高度复杂的推理任务时，它们仍难以提供稳定且准确的答案。为突破这一局限性，此前学者已提出“思维链（Chain of Thought, CoT）”和“思维树（Tree of Thought, ToT）”等几种模仿人类“深思熟虑”且“逻辑性”的思维框架。但这些方法均未设置思维中间结果的储存位置，导致大语言模型不能更全面地模仿人类复杂的思维过程。为弥补这一研究空缺，研究团队提出了“累积推理”框架，尝试对思维过程进行更一般性地建模。

“累积推理”框架利用三个不同的大语言模型来解决复杂推理问题，包括提议者（Proposer）、验证者（Verifier）和报告者（Reporter）。其中，提议者基于现有前提（premises）和命题（propositions）提出一个或几个提案来启动该过程。随后，验证者评估该提案，确定该提案是否可以作为新的命题保留。最后，报告者决定是否是终止思考过程并提供最终答案的最佳时机。

20230926-论文配图1-摄影未知-配图.png

图1.累积推理框架用于解决含三个前提的问题

研究团队选择在FOLIO wiki和AutoTNLI、24点游戏、MATH数据集上对“累积推理”框架进行检验。结果表明，在FOLIO wiki和AutoTNLI数据集上“累积推理”框架始终优于现有方法，显示出高达9.3%的提升。特别是在校对后的FOLIO wiki curated数据集上，“累积推理”达到了98.04%的准确率。在围绕24点游戏的实验中，“累积推理”达到了98%的准确率。值得注意的是，与先前的最先进的方法ToT相比，这一数字有着高达24%的显著提升。MATH数据集的实验结果表明，“累积推理”算法在两种不同的实验设定下，均达到了超出当前已有算法的正确率。其中“累积推理”总体正确率可达58%，并在Level 5的难题中实现了42%的相对准确率提升，建立了GPT-4模型下的新SOTA。

图2.FOLIO wiki数据集对比测试结果

图3.AutoTNLI数据集对比测试结果

图4.24点游戏对比测试结果

图5.MATH数据集对比测试结果

“累积推理”框架不仅被证明可以在逻辑推理任务中实现更高的准确率，也为人工智能领域带来了新的启示和可能性。研究团队表示，随着这种“步步为营”的方法不断完善，在解决复杂的数学与科学问题上，人类有望迎来能够独立完成研究的人工智能数学家（AI Mathematician）。但研究者们承认，这样的远景目标仍面临“如何对大语言模型输出结果进行高效验证”“如何增加思考上下文的长度，以处理更加复杂的问题”等挑战。

论文来自清华大学交叉信息研究院姚期智院士和袁洋助理教授领衔的AI for Math研究团队。近日，该论文以“大语言模型的‘累积推理’框架（Cumulative Reasoning with Large Language Models）”为题发布于康奈尔大学ArXiv。论文共同通讯作者为姚期智和袁洋，论文共同第一作者为交叉信息研究院2021级博士生张伊凡、杨景钦。

版权声明：
文章来源清华大学新闻，分享只为学术交流，如涉及侵权问题请联系我们，我们将及时修改或删除。

相关学术资讯

北京大学王兴军教授团队在集成并行混沌源方面取得进展

山东大学朱鹏华副研究员在《光明日报》发表理论文章《以高质量城市更新推动投资与消费提质增效》

南京工业大学在高性能分离膜方面取得进展

我国学者在高性能纤维电池领域取得进展

人工智能研究院朱松纯、朱毅鑫团队利用代数理论赋予人工智能解决IQ测试的归纳推理能力取得重要进展

中国农业大学动科学院王军军教授团队揭示共生菌表面蛋白调控仔猪肠道健康的巨噬细胞介导机制

北京大学数学科学学院李铁军/周沛劼团队建立单细胞时空转录组动力学重构新方法stVCR

西安交大人文学院妥建清教授在《中国社会科学》发表文章提出人与数字媒介“和合共生”的破解之道

清华大学化工系张如范课题组在高性能彩色碳纳米管纤维制备方面取得突破

清华大学精仪系杨原牧课题组报道基于衍射与偏振深度线索融合的拓展场景单目三维成像