当前位置:首页 >> 学术资讯 >> 科研信息

上海交大自然科学研究院深度学习基础理论团队许志钦、张耀宇课题组在机器学习顶刊TPAMI发表最新工作

2026/04/25

文章导读
你以为Transformer模型参数越多、训练越久,泛化能力就越强?面对需要组合推理的简单任务时,这个直觉可能正在让你浪费海量算力。上海交大团队的最新研究发现,一味追求模型“强大”反而是陷阱——在特定任务上,降低模型复杂度(如缩小初始化尺度)反而能迫使模型学会底层推理结构,实现真正的分布外泛化。当你的模型在复合任务上表现不佳,问题可能不是不够复杂,而是过于复杂了。这项研究揭示的“凝聚现象”和统一的复杂度控制框架,或许能为你节省下一轮训练中不必要的巨额开销,关键在于你是否知道如何精准地“削弱”你的模型。
— 内容由好学术AI分析文章内容生成,仅供参考。

近日,上海交通大学自然科学研究院/数学科学学院深度学习基础理论团队许志钦、张耀宇及其学生系统研究了复杂度控制对 Transformer 模型复合任务泛化能力的影响机制。研究发现,较低模型复杂度(例如较小的初始化尺度或较大的权重衰减系数)能够显著促进模型学习具备推理结构的组合规则,从而提升分布外泛化能力。Transformer 作为大语言模型的核心架构,已在自然语言处理与计算机视觉领域取得突破性进展。然而,在结构简单但具有组合性质的任务上,如何实现真正的组合泛化(compositional generalization)仍然是关键挑战。本研究在理论与机制层面填补了这一重要空白。相关成果以 “Complexity Control Facilitates Reasoning-Based Compositional Generalization in Transformers” 为题,发表于人工智能领域顶级期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

上海交大自然科学研究院深度学习基础理论团队许志钦、张耀宇课题组在机器学习顶刊TPAMI发表最新工作

研究背景

在语言与图像任务中表现卓越的 Transformer,在面对分布外的简单复合任务时,仍可能出现泛化失效。这一现象背后的原因及其解决路径,长期以来是 Transformer 泛化研究的重要议题。针对该问题,研究团队创新性地以“小初始化”为突破口,系统分析了初始化因子与模型泛化行为之间的关系,并进一步将该分析框架推广至常见正则化手段(如权重衰减),提出了统一的复杂度控制(complexity control)理论框架。

研究方法与结果

具体而言,研究首先基于 anchor function 构造了可解释的合成复合任务,并通过精细的数据划分设计,为模型预设三类潜在解:泛化解(低复杂度):模型学习到基本函数结构,并能组合推导复合函数,实现真正的分布外泛化;对称解(中复杂度):模型记忆复合函数整体映射,但未抽象到底层基本函数;记忆解(高复杂度):模型仅通过过拟合记忆训练数据中的所有组合。三类解的复杂度依次递增。实验表明:在较大初始化下模型最终会演化为高复杂度的记忆解,在正常初始化下选择中复杂度的对称解,在小初始化下选择泛化解。进一步地,作者通过对部分 token 进行掩码分析,揭示不同阶段模型内部机制的差异。降维可视化结果显示:从记忆解到对称解,模型开始识别复合函数的可交换性,在隐空间中对等价结构进行聚类;从对称解到泛化解,模型进一步学会对基本函数进行抽象表示,从而实现逐步推理式计算。

团队进一步发现小初始化的 transformer 会出现明显的凝聚现象,凝聚现象是神经网络非线性学习过程中的一个普遍特征,它使网络的有效神经元数目远小于实际神经元数目,从而使得高度复杂的神经网络在保证拟合数据的前提下,仍保持尽可能低的模型复杂度。此外,作者将小初始化推广到常见的正则化方法,如权重衰减并统称为复杂度控制。这些方法在简单任务、真实语言任务和图像复合任务上均表现出更强的泛化能力。

上海交大自然科学研究院深度学习基础理论团队许志钦、张耀宇课题组在机器学习顶刊TPAMI发表最新工作

上图提供了在简单复合任务(左)和图像复合任务(右)不同的复杂度下模型的表现。The figure above illustrates model performance under different complexity settings on simple compositional tasks (left) and image compositional tasks (right).

团队简介

学生张众望和林鹏潇为本工作的共同第一作者,通讯作者为许志钦。许志钦为上海交通大学自然科学研究院/数学科学学院教授,张耀宇为上海交通大学自然科学研究院/数学科学学院副教授,他们也是交大致远学院2008级理科班首届毕业生。张众望为该团队五年级博士生,林鹏潇为三年级博士生。

此外,该团队已在 NeurIPS 2024 发表本工作的前期成果Initialization is critical to whether transformers fit composite functions by reasoning or memorizing。

目前上海交通大学自然科学研究院和数学科学学院已经形成了一批从事深度学习基础研究的科研人员并发表了一系列相关工作。该团队主要有两个系列工作,分别是频率原则和参数凝聚。

本研究得到国家重点研发计划青年科学家项目(2022YFA1008200)、国家自然科学基金项目(92270001、12371511、1242211、12101402)、临港实验室(LG-QS-202202-0)、上海市科技重大专项(2021SHZDZX0102)等支持,并获得上海交通大学思源一号超算、数学科学学院超算中心及学生创新中心的计算资源支持。

关于TPAMI

IEEE TPAMI是人工智能、模式识别、计算机视觉等领域的国际顶尖期刊,2023年度最新发布影响因子为18.6。该期刊谷歌指数(H-Index)在计算机科学和工程技术两个大类学科里均列首位。IEEE TPAMI以严苛的审稿过程、深刻的理论分析著称,在计算机科学与人工智能领域具有权威影响力。


版权声明:
文章来源上海交大,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议

2026年生态环境保护与环境污染国际会议(ICEEPEP 2026)(2026-06-21)

第十届矿产资源、岩土与地质勘探国际学术会议 (MRGGE 2026)(2026-06-26)

第七届IEEE人工智能与机电自动化国际学术会议(IEEE-AIEA 2026)(2026-06-26)

第十一届人工智能与工程管理国际学术会议(ICAIEM 2026)(2026-06-26)

2026年人工智能技术与智慧医学国际学术会议 (BDIMed 2026)(2026-06-26)

2026年第二届航空航天机械工程国际会议(CoMEA 2026)(2026-06-26)

第七届机械仪表与自动化国际学术会议(ICMIA 2026)(2026-06-26)

第十一届能源科学与化学工程国际学术研讨会 (ISESCE 2026)(2026-06-26)

2026年智慧教育与数据挖掘国际学术会议(SEDM 2026)(2026-06-27)

2026仪器仪表、先进材料与智能制造国际会议(ICIAMIM 2026)(2026-07-02)

2026年增材制造、多材料设计与结构创新国际会议(AMMMDSI 2026)(2026-8-11)

2026年区块链、金融科技与信息技术国际会议(BFTIT 2026)(2026-7-28)

2026年多媒体技术、物联网与智能控制国际会议(MTITIC 2026)(2026-6-21)

2026年教育改革、哲学与社会科学国际会议(RPSS 2026)(2026-7-3)

2026年船舶、海洋工程与航海技术国际会议(ICSMENT 2026)(2026-7-30)

2026年建筑技术与工程管理国际会议(ICBTEM 2026)(2026-7-22)

2026年遥感技术、图像处理与全球定位算法国际会议(ICRSTIPGPA 2026)(2026-7-15)

2026年检测技术与自动化控制国际会议(ICITAC 2026)(2026-7-25)

2026年电力系统、人工智能与能源互联网国际会议(PSAIEI 2026)(2026-7-13)

2026年通信技术与网络工程国际会议(IACNECT 2026)(2026-6-8)

小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。