清华大学计算机系孙茂松团队提出“密度法则”揭示大模型高效化发展内在趋势
2025/11/25
近日,清华大学计算机系教授孙茂松、副教授刘知远、助理研究员韩旭指导的研究团队与大模型开源社区OpenBMB合作,提出大模型“密度法则”概念,指出大模型的最大“能力密度”随时间呈指数级增长:2023年2月至2025年4月,大模型最大“能力密度”约每3.5个月翻一番。这意味着每隔3.5个月,即可用一半参数量的模型实现当前最优性能。这一发现为理解大模型发展规律提供了新的视角,揭示了大模型高效化发展的内在趋势。
自2020年以来,大模型在尺度定律(Scaling Law)的指导下,不断增加训练数据和模型参数的规模,在自然语言理解、生成和推理任务上取得了显著的能力提升。这推动了一系列参数量超过千亿的超大规模模型的涌现。然而,随着训练规模的膨胀,大模型训练和推理成本急剧上升。一方面,公开可用数据的增长难以匹配模型需求的指数级扩张;另一方面,计算资源和能源消耗成为大模型训练与部署的瓶颈。为应对这些挑战,研究者亟需探索大模型的可持续发展路径。
针对这一关键发展诉求,研究团队从“摩尔定律”的密度提升规律中获得启发,基于“采用相同制造工艺、经过充分训练的不同尺寸模型,其‘能力密度’应当相同”的核心假设,提出大模型“能力密度”(Capability Density)概念,用于评估大模型单位参数内蕴含的智能水平。
为了量化“能力密度”,研究团队设计了相对“能力密度”的评估框架。首先选取一系列基准模型,通过拟合这些模型在不同参数规模下的性能表现,建立参数量与性能之间的映射关系。在此基础上,研究团队设定基准模型的“能力密度”为1,作为衡量其他模型“能力密度”的基线。给定目标模型的“能力密度”被定义为“同能力的基准模型参数量与目标模型参数量的比值”。
图1.“能力密度”计算方法示意图
团队对51个近年来发布的开源大模型进行了密度分析。结果显示,这些模型的最大“能力密度”随时间呈指数增长趋势,大约每过3.5个月,参数量减半的模型就能达到当前最先进模型的性能水平。这一规律揭示了大模型技术的飞速进展,以及在算力和算法的协同作用下,大模型能力的持续提升。
图2.开源大模型“能力密度”的变化趋势图
基于“密度法则”,研究团队得出了多项推论。首先,实现相同性能的大模型所需参数量和推理成本呈指数级下降,例如GPT-3.5级别的大模型每百万词元推理价格2022年年底为20美元,到2024年8月已经降至此前的266分之一。其次,自ChatGPT发布后,“能力密度”增长显著加速,越来越多的高效开源大模型进入大众视野。再次,“密度法则”与“摩尔定律”结合,揭示了终端智能的巨大潜力——芯片计算能力与大模型“能力密度”均呈指数级增长,终端设备将能够运行更高性能的大模型,推动边缘计算的普及。
该研究强调密度优化是大模型发展的关键路径,源于架构、算法和数据处理的进步。团队已发布了MiniCPM、MiniCPM-V/o、VoxCPM等一系列端侧高“能力密度”模型。系列模型获得学术和产业界广泛认可,相关技术论文发表于《自然·通讯》(Nature Communications)、《自然·机器智能》(Nature Machine Intelligence)等刊物。开源模型的10次发布,全部登顶HuggingFace、GitHub国际关注榜单,并入选HuggingFace 2024年度全球最受欢迎和下载开源模型榜单。
研究成果以“大模型密度法则”(Densing Law of LLMs)为题,于11月20日作为封面文章,发表于《自然》(Nature)子刊《自然·机器智能》(Nature Machine Intelligence)。
图3.研究成果作为封面文章发表于《自然·机器智能》
清华大学计算机系博士后肖朝军为论文第一作者,韩旭、刘知远、孙茂松为论文通讯作者。研究得到国家自然科学基金、北京市科技计划项目、博士后创新人才支持计划及清华大学“水木学者”计划的支持。
文章来源清华大学,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
第四届金融科技与商业分析国际学术会议 5
-
2025年12月优质国际学术会议推荐 795
-
2026年第十一届复合材料与材料工程 917
-
2025年机器视觉、智能成像与模式识 1567
-
2025年智能光子学与应用技术国际学 2707
-
2025年机械工程,新能源与电气技术 2917
-
2025年计算机科学、图像分析与信号 3282
-
2025年材料化学与燃料电池技术国际 3030
-
第六届材料化学与环境工程国际学术会议 11-27
-
2026年清洁能源、储能材料与绿色制 11-27
-
2026年海洋测绘、海洋学与环境遥感 11-27
-
2026年认知计算、人机协同与智能增 11-27
-
2026年水文遥感、水利工程与水资源 11-27
-
2026年智慧城市、物联网与可持续发 11-27
-
2026年企业能源管理、绿色金融与碳 11-27
-
2025年两院院士增选有效候选人2233
-
2025最新JCR分区及影响因子6768
-
好学术:科研网址导航|学术头条分3151
-
2025年国际期刊预警名单发布!3045
-
2025年中科院期刊分区表重磅发12655
-
中国科协《重要学术会议目录(206957
-
吉林大学校长张希:学术会议中的提4017
-
研究提出基于视觉—文本多模态融合11-25
-
清华大学生命学院刘玉乐课题组合作11-25
-
清华大学生命学院齐天从课题组合11-25
-
清华大学计算机系孙茂松团队提出“11-25
-
清华大学自动化系宋士吉、黄高团队11-25
-
高海拔宇宙线观测揭示恒星级黑洞为11-21
-
研究发现趋磁细菌在重金属铅毒性干11-21
-
清华牵头的空间科学项目首次实现太11-21
-
新疆克拉玛依石西油田 18567

-
迈海材料基因组国际研究院 23074

-
沈阳工业大学 21317

-
中金岭南韶关冶炼厂 18145

-
百奥泰国际会议 24268

-
天津中豪会议策划服务有限公司 2313

-
北京盛合技术研究院 21345

-
第三届肌肉骨骼系统超声医学学术会 2267

-
2016年人类社会科学国际学术会 2154

-
济南大学 21233

-
中国化工信息中心 7940

-
河南大学 24236

-
International As 8113

-
大连百奥泰国际会议有限公司 2044

-
Northeastern Uni 18006

-
中国卫视传媒国际会展旅游 22987

-
武汉cepe主办方 18107

-
四川大学材料学院 17984

-
国际工学技术出版协会 23074

-
《电子测量与仪器学报》杂志社 23356

















18
















































