上海交大数学科学学院深度学习基础理论团队罗涛、许志钦、张耀宇课题组Math4AI系列研究取得新进展
2026/05/15
近日,上海交通大学数学科学学院深度学习基础理论团队罗涛、许志钦、张耀宇课题组围绕 Math4AI 方向取得系列研究进展,三项相关工作分别发表于国际重要期刊与人工智能顶级会议。其中,工作 “Architecture induces structural invariant manifolds of neural network training dynamics” 发表于 Mathematical Models and Methods in Applied Sciences (M3AS);工作 “From Condensation to Rank Collapse: A Two-Stage Analysis of Transformer Training Dynamics” 入选 NeurIPS 2025 Oral;工作 “Focus and Dilution: The Multi-stage Learning Process of Attention” 入选 ICML 2026 Spotlight。三项研究以数学理论刻画人工智能模型的训练机制,从神经网络架构诱导的不变结构,到 Transformer 注意力模块的阶段性动力学,再到注意力学习中的聚焦-稀释循环,系统展示了 Math4AI 在解释和理解深度学习模型中的基础作用。
研究背景
近年来,以 Transformer 为代表的深度学习模型在自然语言处理、计算机视觉和多模态智能等领域取得突破性进展。然而,模型能力如何在训练过程中形成,网络架构如何约束参数演化,注意力机制如何从随机初始化中逐步发展出有效结构,仍是人工智能基础理论中的关键问题。面向这些问题,Math4AI 强调用动力系统、微分几何和多尺度分析等视角和工具理解复杂的人工智能模型和算法,为大模型训练、泛化和可解释性研究提供理论支撑。
围绕这一主线,研究团队从神经网络训练动力学出发,结合几何控制理论和梯度流分析,研究了模型架构、参数对称性、结构不变流形、参数凝聚、秩坍缩以及注意力学习循环等一系列现象,逐步构建起解释深度神经网络和 Transformer 训练过程的数学框架。
研究方法与结果
在 “Architecture induces structural invariant manifolds of neural network training dynamics” 中,研究团队从一般的神经网络架构出发,提出了基于几何控制理论的研究框架,用以刻画由模型参数化方式内生决定的训练动力学结构。研究证明,对于由解析函数构成的模型而言,其结构不变流形能够约束梯度流轨迹,并且这一约束独立于具体数据和损失函数。进一步地,团队证明神经网络中的对称性,例如神经元置换对称性,会诱导相应的结构不变流形;在全连接网络中,这些流形形成层级结构,并与神经元凝聚、等价降宽网络等现象密切相关。对于两层神经网络,研究还证明所有结构不变流形均由对称性诱导,从而弥合了已知对称性与全部可能不变量之间的理论缺口。
上图展示了架构诱导的结构不变流形对神经元凝聚的全局引导作用
在 “From Condensation to Rank Collapse: A Two-Stage Analysis of Transformer Training Dynamics” 中,研究团队进一步面向 Transformer 架构,对 Transformer 的训练动力学进行了系统分析。理论结果表明,注意力模块的学习可分解为两个阶段。第一阶段中,随机初始化带来的非对称权重扰动能够维持参数矩阵中的非退化梯度动力学,使模型从小初始化区域中有效逃逸;随后,这些矩阵发生凝聚,并逐渐朝目标方向对齐。第二阶段中,原本近似静止的值-询问矩阵开始积极参与训练,推动归一化后的矩阵走向渐近秩坍缩。该工作将经典方向收敛理论推广到 Transformer 架构中,并把神经网络中的参数凝聚现象与注意力机制中的秩坍缩问题联系起来。
上图提供了在训练的不同阶段参数结构的演化、阶段转换和秩坍塌现象
在后续研究脉络中,工作 “Focus and Dilution: The Multi-stage Learning Process of Attention” 进一步深入注意力机制本身的学习过程,发现注意力训练并非简单单调地强化某一模式,而是会反复经历“聚焦-稀释”的循环。研究在一层 Transformer 和马尔可夫数据设定下,通过梯度流分析与临界点附近的分阶段线性化,严格刻画了单个循环的内部结构:首先,嵌入矩阵(embedding)与投影矩阵(projection)快速凝聚到近似秩一结构,而注意力参数在早期几乎保持冻结;随后,注意力参数开始增长,并在频率驱动下聚焦于高频词元;随着注意力继续演化,它会在嵌入矩阵中诱导下一阶扰动,引发权重重新分配机制,从而逐渐稀释此前形成的聚焦;最后,低频词元之间的微小非对称性打破退化临界点,打开新的嵌入方向,并启动下一轮学习循环。团队进一步在合成马尔可夫数据、WikiText 和 TinyStories 等任务上验证了理论预测,实验结果表明模型训练过程呈现出与理论一致的阶段性结构和循环动力学。
上图提供了问题设置和不同阶段对应的主导动力学和现象概述
研究意义
这三项工作共同体现了 Math4AI 的核心思想:用数学揭示人工智能模型能力形成背后的结构性机制。M3AS 工作从一般神经网络架构出发,解释了架构如何诱导训练动力学中的结构不变流形;NeurIPS 2025 Oral 工作面向 Transformer,揭示了从参数凝聚到秩坍缩的两阶段训练过程;ICML 2026 Spotlight 工作进一步刻画了注意力学习中的多阶段聚焦-稀释循环。三者从一般理论到具体架构、从全局结构到局部机制,形成了理解深度学习训练动力学的连续研究脉络。
相关研究有助于进一步理解大语言模型和深度神经网络的训练、泛化与可解释性,也为模型架构设计、初始化策略、正则化方法和训练算法改进提供了理论参考。随着人工智能模型规模和复杂度不断提升,Math4AI 将在解释模型行为、建立可靠训练理论和推动可控智能系统发展中发挥越来越重要的作用。
研究成员简介
在系列工作中,“From Condensation to Rank Collapse: A Two-Stage Analysis of Transformer Training Dynamics” 由学生陈政安(第一作者)和罗涛(通讯作者)完成;“Focus and Dilution: The Multi-stage Learning Process of Attention” 由学生陈政安与林鹏潇(共同第一作者)、许志钦与罗涛(共同通讯作者)完成, “Architecture induces structural invariant manifolds of neural network training dynamics” 由学生赵佳杰(第一作者)、罗涛与张耀宇 (共同通讯作者)完成。罗涛、许志钦、张耀宇为课题组共同指导教师。相关成果体现了团队在 Math4AI 前沿交叉方向上的系统性科研积累与人才培养成效。
课题组持续推动 Math4AI 方向的理论研究与学术交流,致力于用数学方法揭示深度学习模型训练与泛化背后的结构性规律,并为人工智能模型的可控设计与可靠应用提供理论基础。
文章来源上海交大,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年6月优质国际学术会议推荐 430
-
2026年智慧教育与数据挖掘国际学术 199
-
2026年第17届机械与航空航天工程 421
-
2026资源、化学化工与应用材料国际 2009
-
2026年图像处理与数字创意设计国际 1818
-
2026年机械工程,新能源与电气技术 6286
-
2026年材料科学、低碳技术与动力工 1986
-
2026年地质灾害、遥感技术与智能预 05-27
-
2026年机器人技术、控制与工业自动 05-27
-
2026年虚拟现实、人机交互与仿真模 05-27
-
2026年农业传感器、精准灌溉与智慧 05-27
-
2026年经济发展、产业升级与教育培 05-27
-
2026年算法,模式识别与深度学习国 05-27
-
2026年图像处理,计算机视觉与多媒 05-27
-
2026年大数据,电子信息工程与智慧 05-27
-
中国科协发布2025年《重要学术208
-
2026年新锐分区(原中科院期刊3653
-
2025年两院院士增选有效候选人4617
-
2025最新JCR分区及影响因子13107
-
好学术:科研网址导航|学术头条分6061
-
2025年国际期刊预警名单发布!6242
-
2025年中科院期刊分区表重磅发22747
-
吉林大学校长张希:学术会议中的提7318
-
西安交大人文学院妥建清教授在《中05-23
-
中国科大实现液晶中涡旋线向拓扑孤05-23
-
新型多功能水性环氧防腐涂层研究取05-23
-
研究揭示树种多样性抑制土壤激发效05-23
-
铍-9离子精密测量研究取得进展05-23
-
氨分解制绿氢催化剂研究获进展05-23
-
南京大学物理学院彭茹雯和王牧研究05-23
-
海南大学 24719

-
北京化工大学 24395

-
航空工程学院 23222

-
北京亿洋天成国际会展有限公司 24394

-
河南纳智博研会务有限公司 8474

-
东南大学 18466

-
香港机械工程师协会 2253

-
BIT 24363

-
中国民航大学 18608

-
电子科技大学 18492

-
郑州金凌商贸有限公司 18403

-
2016年创新材料科学与技术国际 2454

-
上海艾瑞咨询集团 21455

-
武汉点歌机租赁公司 2477

-
ant 24409

-
International As 2254

-
上海微展信息科技有限公司 21508

-
清华大学持久性有机污染物研究中心 21742

-
WILL 8146

-
VERBI软件有限责任公司 8429




















70








































