计算机系研究团队在大规模语言预训练模型前沿领域取得新进展_科研信息_学术资讯

当前位置：首页 >> 学术资讯 >> 科研信息

第四届信息经济、数据建模与云计算国际学术会议（ICIDC 2025）

第七届光电科学与材料国际学术会议 (ICOSM 2025)

2025年计算智能与机器人国际学术会议（CIR 2025)

2025年智能计算与系统仿真国际会议(ICSS 2025)

第五届电子材料与信息工程国际学术会议 (EMIE 2025)

第二届教育人工智能国际学术会议（ISAIE 2025）

2025年先进半导体器件与集成技术国际学术会议（ASDIT 2025）

2025年地质、能源与油气勘探国际学术会议（GEOGE 2025）

第八届人文教育与社会科学国际学术会议（ICHESS 2025）

第二届信号处理与神经网络应用国际学术会议（SPNNA 2025）

第五届生物医学与生物信息工程国际学术会议 (ICBBE 2025)

第九届交通工程与运输系统国际学术会议（ICTETS 2025）

2025年低空经济论坛暨低空飞行技术与无人机应用国际学术会议（LEF & ICLU 2025）

2025年图像、信号处理与机器学习国际学术会议（ISPML 2025）

第三届算法、图像处理与机器视觉国际学术会议（AIPMV2025）

2025年人工智能、虚拟现实与交互设计国际学术会议(AIVRID 2025)

计算机系研究团队在大规模语言预训练模型前沿领域取得新进展

2024/04/12

2018年以来，预训练语言模型（PLM）及其“预训练-微调”方法已成为自然语言处理（NLP）任务的主流范式，该范式先利用大规模无标注数据通过自监督学习预训练语言大模型，得到基础模型，再利用下游任务的有标注数据进行有监督学习微调模型参数，实现下游任务的适配（图1）。越来越多实验表明：规模越大的模型不仅在已知任务上有着更好的表现，同时展现出完成更复杂的未知任务的强大泛化能力，近年出现的GPT-3、ChatGPT等均为大规模预训练模型的代表。然而，现有对大规模预训练模型的全部参数进行微调实现任务适配的做法，会消耗大量的GPU计算资源和存储资源，严重限制大模型的应用场景。为了应对该挑战，参数高效微调（Parameter-efficient Fine-tuning）方法逐渐受到关注。与全参数微调相比，参数高效微调方法冻结预训练模型99%以上的参数，仅利用少量下游任务数据微调少于1%模型规模的参数，作为模型插件实现大模型对下游任务的适配，达到媲美全参数微调的性能，并显著降低微调过程的计算和存储开销。

图1.基础模型的“预训练-微调”范式与传统深度学习的对比

研究团队提出，参数高效微调方法的本质是在对“增量参数”（Delta Parameters）进行调整，因此将此类方法命名为“增量微调”（Delta Tuning），并基于统一的分析框架对增量微调现有方法进行梳理总结，将现有方法分为三类（如图2所示）：添加式（Addition-based）、指定式（Specification-based）和重参数化（Reparameterization-based）方法。为了指导后续的模型架构和算法设计，团队还进一步从参数优化和最优控制两个角度，提出了增量微调的理论框架，为探索和解释增量微调的内在机理提供了可行方案。

图2.统一视角的增量微调框架

该研究工作选择了超过100个自然语言处理任务，对主流增量微调方法进行了全面细致的性能比较和分析，得出多项重要结论，例如：（1）基础模型随着参数规模的不断增大，在性能显著提高的同时，不同增量微调方法的差异急剧减少（图3），最少仅需要优化万分之八的模型参数即可完成适配；（2）不同增量微调方法可以进行并行或者串行的组合从而达到更优的性能，表明了分布在模型参数空间中的智能能力可以进行组合和泛化；（3）增量微调方法具备良好的任务级别的迁移能力，完成特定任务的“能力”可以表示为轻量级参数化的形式，可以在不同基础模型和不同用户之间共享。以上研究表明，增量微调是基础模型的重要特性，上述结论将加深对基础模型的认识，为其创新研究与应用提供重要支撑。

图3.随着基础模型参数规模的增大，增量微调方法可以更有效地激发模型性能

研究团队自2018年以来坚持开展语言大模型创新研究，并坚持建设OpenBMB开源社区，致力于构建大规模预训练模型全流程高效计算工具体系，相关工作在全球最大的开源社区GitHub上累计获得超过4000星标关注，曾获自然语言处理领域著名国际会议ACL 2022最佳系统演示论文奖等荣誉。研究团队基于该论文成果研制发布了开源工具包OpenDelta，是OpenBMB开源社区的重要组成部分，可支持研究者和开发者灵活高效地在各类预训练模型上实现和应用增量微调方法。研究团队认为，增量微调技术将是基础模型适配特定任务、场景和用户的重要范式，可更有效地激发以ChatGPT为代表的大规模预训练模型的性能。

相关研究成果“面向大规模预训练语言模型的参数高效微调”（Parameter-efficient Fine-tuning of Large-scale Pre-trained Language Models）于3月23日被国际知名期刊《自然·机器智能》（Nature Machine Intelligence）作为封面文章发表。

该研究成果由清华大学计算机系孙茂松、李涓子、唐杰、刘洋、陈键飞、刘知远和深圳国际研究生院郑海涛等团队师生共同完成，清华大学计算机系副教授刘知远、深圳国际研究生院副教授郑海涛、计算机系教授孙茂松为该文章的共同通讯作者，清华大学计算机系2018级博士生丁宁与2019级博士生秦禹嘉为该文章的共同第一作者。该研究得到科技部科技创新2030“新一代人工智能”重大项目、国家自然科学基金、北京智源人工智能研究院、清华大学国强研究院的支持。

版权声明：
文章来源清华大学新闻，分享只为学术交流，如涉及侵权问题请联系我们，我们将及时修改或删除。

相关学术资讯

车辆学院杨殿阁团队提出自动驾驶“可信持续进化”技术

新材料学院潘锋课题组在富镍三元锂电正极材料研究中取得重要进展

北京大学生命科学学院陆剑课题组与合作者共同揭示uORFs通过精细调节CLOCK蛋白的翻译参与果蝇昼夜节律及睡眠行为的调控机制

我国学者在植物异染色质染色中心形成研究领域取得新进展

国家纳米科学中心李乐乐研究员课题组在mRNA活体成像研究方面取得进展

我国学者在血管样诊疗一体再生缝线研究方面取得进展

我国学者与海外合作者在纳米复合材料研究方面取得进展

环境学院覃栎课题组在Nature Water发文揭示全球农业贸易导致的水资源压力再分配机制和公平性效应

中国科学技术大学在细胞有丝分裂期转录调控研究方面取得进展

北京大学城市与环境学院朴世龙院士团队在《自然-地球科学》撰文揭示植被变绿通过跨区域水汽传输利好全球地表水资源