- 清华大学 深圳国际研究生院杨诚团 46
- 被预警的sci农业期刊有哪些? 44
- sci来源期刊是否会是核心期刊呢 73
- journal of build 17
- 关于保健医学论文选题方向 47
- 清华大学生命学院魏迪明与医学院曾 55
- 回答论文创新点时应从哪些方面入手 56
- 2024年度国家自然科学基金外国 148
- EI期刊录用大致的时间框架 38
- 编委成员是否可以把自己的著作作为 60
- 国际学术会议概念 66
- 关于胃肠病学如何发表SCI论文的 82
- 申请参加学术会议通常流程 36
- 关于综述类文章摘要的字数是多少? 56
- 关于国外EI期刊投稿的可能难点与 60
- 哈尔滨工业大学 1391
- 同济大学地下系 20379
- 石家庄铁道大学 20406
- 首都经济贸易大学 7377
- 上海蔚有文化传媒有限公司 7443
- IC4M 20401
- 南方医科大学 1396
- 天津市富裕电子科技有限公司 22415
- 安徽理工大学能源与安全学院 17431
- 北京路川国际展览有限公司 1377
- 南京普世朗会展服务有限公司 23378
- 北京中外企业人力资源协会 1395
- 上海同巨文化传播有限公司 23407
- 南京工业大学 23357
- 百奥泰(大连)国际会议有限公司 20393
- 美国科研出版社 1399
- 中南大学信息科学与工程学院 20410
- 酒店人旅行网 22398
- 天津市乾坤通翻译有限公司 17421
- 安徽建行客户服务中心 20383
清华大学交叉信息研究院姚期智和袁洋领衔提出大语言模型“累积推理”框架
2024/03/29
近日,清华大学交叉信息研究院姚期智和袁洋领衔的研究团队提出“累积推理(Cumulative Reasoning, CR)”框架,显著提升了大语言模型(LLMs)解决复杂推理任务的准确度,特别是在逻辑推理和24点难题上实现了高达98%的准确率,在数学难题上(MATH Level 5)实现了42%的准确率相对提升。
尽管大语言模型已取得显著进步,但面对高度复杂的推理任务时,它们仍难以提供稳定且准确的答案。为突破这一局限性,此前学者已提出“思维链(Chain of Thought, CoT)”和“思维树(Tree of Thought, ToT)”等几种模仿人类“深思熟虑”且“逻辑性”的思维框架。但这些方法均未设置思维中间结果的储存位置,导致大语言模型不能更全面地模仿人类复杂的思维过程。为弥补这一研究空缺,研究团队提出了“累积推理”框架,尝试对思维过程进行更一般性地建模。
“累积推理”框架利用三个不同的大语言模型来解决复杂推理问题,包括提议者(Proposer)、验证者(Verifier)和报告者(Reporter)。其中,提议者基于现有前提(premises)和命题(propositions)提出一个或几个提案来启动该过程。随后,验证者评估该提案,确定该提案是否可以作为新的命题保留。最后,报告者决定是否是终止思考过程并提供最终答案的最佳时机。
图1.累积推理框架用于解决含三个前提的问题
研究团队选择在FOLIO wiki和AutoTNLI、24点游戏、MATH数据集上对“累积推理”框架进行检验。结果表明,在FOLIO wiki和AutoTNLI数据集上“累积推理”框架始终优于现有方法,显示出高达9.3%的提升。特别是在校对后的FOLIO wiki curated数据集上,“累积推理”达到了98.04%的准确率。在围绕24点游戏的实验中,“累积推理”达到了98%的准确率。值得注意的是,与先前的最先进的方法ToT相比,这一数字有着高达24%的显著提升。MATH数据集的实验结果表明,“累积推理”算法在两种不同的实验设定下,均达到了超出当前已有算法的正确率。其中“累积推理”总体正确率可达58%,并在Level 5的难题中实现了42%的相对准确率提升,建立了GPT-4模型下的新SOTA。
图2.FOLIO wiki数据集对比测试结果
图3.AutoTNLI数据集对比测试结果
图4.24点游戏对比测试结果
图5.MATH数据集对比测试结果
“累积推理”框架不仅被证明可以在逻辑推理任务中实现更高的准确率,也为人工智能领域带来了新的启示和可能性。研究团队表示,随着这种“步步为营”的方法不断完善,在解决复杂的数学与科学问题上,人类有望迎来能够独立完成研究的人工智能数学家(AI Mathematician)。但研究者们承认,这样的远景目标仍面临“如何对大语言模型输出结果进行高效验证”“如何增加思考上下文的长度,以处理更加复杂的问题”等挑战。
论文来自清华大学交叉信息研究院姚期智院士和袁洋助理教授领衔的AI for Math研究团队。近日,该论文以“大语言模型的‘累积推理’框架(Cumulative Reasoning with Large Language Models)”为题发布于康奈尔大学ArXiv。论文共同通讯作者为姚期智和袁洋,论文共同第一作者为交叉信息研究院2021级博士生张伊凡、杨景钦。
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
清华大学地学系黄小猛团队基于深度学习方法合作揭示全球土壤碳储存机制
清华大学药学院肖百龙团队揭示机械力受体Piezo1在中枢神经系统机械力感知中的重要功能
第四届计算机图形学、图像与虚拟化研究国际会议(ICCGIV 2024)(2024-05-17)
第九届机电控制技术与交通运输国际学术会议(ICECTT 2024)(2024-05-24)
2024年教育政策与实践研讨会(ICEPP 2024)(2024-05-24)
第三届机电一体化与机械工程国际会议(ICMME2024)(2024-05-24)
2024年电子器件、传感控制技术与光学机械工程国际学术会议(EDSCTOE 2024)(2024-05-25)
第十四届地质和地球物理学国际会议(ICGG 2024)(2024-05-31)
2024年食品工程与农业科学国际会议(ICFEAS 2024)(2024-06-02)
2024年第三届网络、通信与信息技术国际会议(CNCIT 2024)(2024-06-07)
第十届机械工程、材料和自动化技术国际会议(MMEAT 2024)(2024-06-21)
2024年先进机器人,自动化工程与机器学习国际会议(ARAEML 2024)(2024-06-28)
2024年地质工程,测量与勘测技术国际会议(GESST 2024)(2024-6-20)
2024生物医学与食品科学国际研讨会(ISBFS 2024)(2024-6-28)
2024年创新教育与多媒体技术国际会议(ICIEMT 2024)(2024-6-20)
2024年大数据,新媒体与经济创新国际会议(ICBNMEI 2024)(2024-6-25)
2024测绘、遥感与地理信息国际会议(ICSRSGI 2024)(2024-6-30)
2024年第七届人工智能应用和技术国际会议(2024-9-26)
2024机械制造、先进材料与新能源国际学术会议(ICMMAMNE 2024)(2024-6-29)
2024年艺术、设计与技术国际会议(2024-7-22)
2024年教育科学与人文发展国际学术会议(ICESHD 2024)(2024-6-25)
2024年信息管理与数据科学国际会议( ICIMDS 2024)(2024-5-31)