- 自考本毕业论文查重要求是有哪些 52
- 论文内的代码是否会被查重? 67
- 如何选择适合自己的sci期刊发表 66
- 探讨cscd期刊是属于什么级别? 40
- 对于降低英文著作出版拒稿率的方法 51
- 知网查重为什么越来越贵 67
- 会议预算方案有哪些 64
- 教师评职称出版专著究竟有哪些优势 49
- 注册学术会议通常需要经历哪些步骤 46
- 大型学术研讨会筹备策划,会议展厅 81
- 在自费出版和公费出版之间哪种方式 44
- 吴凯/刘婧团队在谢尔宾斯基分形结 62
- 工程技术与设计期刊能评职称吗? 83
- 生命学院杨雪瑞课题组开发深度学习 62
- 北京大学生命科学学院秦跟基课题组 54
- 四川省达州市职工旅行社有限公司 17387
- 上海商图信息咨询有限公司 7384
- 黄山国际大酒店 20401
- 西安石油大学 22382
- 中国市场经济研究会 17407
- 北京仁达方略企业管理咨询有限公司 1383
- ZL 22385
- 上海英致商务咨询有限公司 22381
- MHDT 7425
- 香港科学工程协会 22428
- International As 1382
- APISE 20424
- 国际工学技术出版协会 7445
- 励德爱思唯尔信息技术(北京)有限 22409
- gds 23387
- 广东宏展科技有限公司 23393
- 中国健康产业论坛 23400
- 大连百奥泰科技 22375
- 哈尔滨工业大学 22377
- 北京龙泰瑞驰科技有限责任公司 17387
清华大学交叉信息研究院姚期智和袁洋领衔提出大语言模型“累积推理”框架
2024/03/29
近日,清华大学交叉信息研究院姚期智和袁洋领衔的研究团队提出“累积推理(Cumulative Reasoning, CR)”框架,显著提升了大语言模型(LLMs)解决复杂推理任务的准确度,特别是在逻辑推理和24点难题上实现了高达98%的准确率,在数学难题上(MATH Level 5)实现了42%的准确率相对提升。
尽管大语言模型已取得显著进步,但面对高度复杂的推理任务时,它们仍难以提供稳定且准确的答案。为突破这一局限性,此前学者已提出“思维链(Chain of Thought, CoT)”和“思维树(Tree of Thought, ToT)”等几种模仿人类“深思熟虑”且“逻辑性”的思维框架。但这些方法均未设置思维中间结果的储存位置,导致大语言模型不能更全面地模仿人类复杂的思维过程。为弥补这一研究空缺,研究团队提出了“累积推理”框架,尝试对思维过程进行更一般性地建模。
“累积推理”框架利用三个不同的大语言模型来解决复杂推理问题,包括提议者(Proposer)、验证者(Verifier)和报告者(Reporter)。其中,提议者基于现有前提(premises)和命题(propositions)提出一个或几个提案来启动该过程。随后,验证者评估该提案,确定该提案是否可以作为新的命题保留。最后,报告者决定是否是终止思考过程并提供最终答案的最佳时机。
图1.累积推理框架用于解决含三个前提的问题
研究团队选择在FOLIO wiki和AutoTNLI、24点游戏、MATH数据集上对“累积推理”框架进行检验。结果表明,在FOLIO wiki和AutoTNLI数据集上“累积推理”框架始终优于现有方法,显示出高达9.3%的提升。特别是在校对后的FOLIO wiki curated数据集上,“累积推理”达到了98.04%的准确率。在围绕24点游戏的实验中,“累积推理”达到了98%的准确率。值得注意的是,与先前的最先进的方法ToT相比,这一数字有着高达24%的显著提升。MATH数据集的实验结果表明,“累积推理”算法在两种不同的实验设定下,均达到了超出当前已有算法的正确率。其中“累积推理”总体正确率可达58%,并在Level 5的难题中实现了42%的相对准确率提升,建立了GPT-4模型下的新SOTA。
图2.FOLIO wiki数据集对比测试结果
图3.AutoTNLI数据集对比测试结果
图4.24点游戏对比测试结果
图5.MATH数据集对比测试结果
“累积推理”框架不仅被证明可以在逻辑推理任务中实现更高的准确率,也为人工智能领域带来了新的启示和可能性。研究团队表示,随着这种“步步为营”的方法不断完善,在解决复杂的数学与科学问题上,人类有望迎来能够独立完成研究的人工智能数学家(AI Mathematician)。但研究者们承认,这样的远景目标仍面临“如何对大语言模型输出结果进行高效验证”“如何增加思考上下文的长度,以处理更加复杂的问题”等挑战。
论文来自清华大学交叉信息研究院姚期智院士和袁洋助理教授领衔的AI for Math研究团队。近日,该论文以“大语言模型的‘累积推理’框架(Cumulative Reasoning with Large Language Models)”为题发布于康奈尔大学ArXiv。论文共同通讯作者为姚期智和袁洋,论文共同第一作者为交叉信息研究院2021级博士生张伊凡、杨景钦。
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
清华大学深圳国际研究生院沈欣炜课题组在电-气综合能源系统减碳规划方面取得新进展
北京大学物理学院刘佳与合作者在超轻玻色型暗物质探测研究中取得新进展
物理学院量子材料科学中心谢心澄院士课题组及合作者在反对称磁电耦合相关研究中取得新进展
北京大学城市与环境学院朴世龙院士团队在《自然-地球科学》撰文揭示植被变绿通过跨区域水汽传输利好全球地表水资源
清华大学航院冯西桥团队合作揭示癌细胞自适应转移的蛋白质调控力学机制
浙江大学与中国医科大学在哺乳动物早期胚胎发育的脂代谢重塑研究方面取得进展
江大学医学院李晓明教授和张岩教授团队在大麻素受体机制研究方面取得进展
第四届计算机图形学、图像与虚拟化研究国际会议(ICCGIV 2024)(2024-05-17)
第九届机电控制技术与交通运输国际学术会议(ICECTT 2024)(2024-05-24)
2024年教育政策与实践研讨会(ICEPP 2024)(2024-05-24)
第三届机电一体化与机械工程国际会议(ICMME2024)(2024-05-24)
2024年电子器件、传感控制技术与光学机械工程国际学术会议(EDSCTOE 2024)(2024-05-25)
第十四届地质和地球物理学国际会议(ICGG 2024)(2024-05-31)
2024年食品工程与农业科学国际会议(ICFEAS 2024)(2024-06-02)
2024年第三届网络、通信与信息技术国际会议(CNCIT 2024)(2024-06-07)
第十届机械工程、材料和自动化技术国际会议(MMEAT 2024)(2024-06-21)
2024年先进机器人,自动化工程与机器学习国际会议(ARAEML 2024)(2024-06-28)
2024区域经济发展、城市规划与建设国际会议(REDUPD 2024)(2024-6-26)
2024公共艺术、文化传播与社会科学国际会议(ICPACCSS 2024)(2024-5-26)
2024能源动力、机械自动化与航天航空技术国际学术会议(ICEPMAT2024)(2024-6-27)
2024年电化学与储能技术国际学术会议(ICEEST 2024)(2024-7-20)
2024年机器学习与通信技术国际会议(ICMLCT 2024)(2024-5-21)
2024年计算机网络安全,云计算与物联网国际会议(CNSCCIT 2024)(2024-5-25)
2024年第七届人工智能与大数据国际会议(ICAIBD 2024)(2024-5-24)
2024年环境污染处理与生态建设国际会议(EPTEC 2024)(2024-6-28)
2024年第七届先进机械和电气工程国际会议(AMEE 2024)(2024-10-25)
2024年第六届国际电子通信大会(IECC 2024)(2024-7-19)