当前位置:首页 >> 学术资讯 >> 科研信息

清华大学自动化系宋士吉、黄高团队提出具备人自适应主动感知能力的动态神经网络架构

2025/11/25

文章导读
当AI视觉模型还在为算力挣扎、能耗飙升而寸步难行时,人类大脑却能以极低能耗精准捕捉关键信息——这个困扰学界十年的效率困局,清华团队终于破解!宋士吉、黄高团队在《自然·机器智能》重磅推出AdaptiveNN架构,首次实现机器"主动眨眼":像人类一样动态聚焦关键区域,边看边学,信息足够即停。实测在九类任务中计算效率暴增4.4-5.9倍,更兼容卷积网络与Transformer,让机器人、手机等边缘设备也能流畅运行高级视觉。揭秘类人感知背后的技术革命,效率瓶颈从此成为历史。
— 内容由好学术AI分析文章内容生成,仅供参考。

过去几十年间,计算机视觉研究取得了突破性进展。然而,深度神经网络驱动的计算机视觉模型在功耗、存储和响应时延等方面存在显著的效率瓶颈,难以广泛部署于机器人、移动设备或边缘终端等资源受限的场景。此外,大型视觉模型巨大的训练与推理开销也使算力瓶颈问题和环境可持续性问题变得尤为突出。

清华大学自动化系宋士吉、黄高团队提出具备人自适应主动感知能力的动态神经网络架构

图1.当前计算机视觉范式所面临的能效瓶颈

人类视觉系统能在庞杂的视觉输入中快速筛取要点,大幅降低冗余计算,使得人类高度复杂的视觉系统能够高效、快速运行。无论外界场景多么复杂,人类视觉系统的能耗主要取决于注视带宽与注视次数,而非全局像素量。早在2015年,深度学习三位主要奠基人杨立昆(Yann LeCun)、本吉奥(Bengio)和辛顿(Hinton)便指出,未来的AI视觉系统应具备类人的、任务驱动的主动观察能力。然而近十年以来,这一方向仍缺乏系统性研究。

清华大学自动化系宋士吉、黄高团队提出具备人自适应主动感知能力的动态神经网络架构

图2.人类视觉系统的主动自适应感知策略

11月6日,清华大学自动化系宋士吉教授、黄高副教授团队在《自然·机器智能》(Nature Machine Intelligence)上以“模拟人类自适应视觉,实现高效灵活的机器视觉感知”(Emulating human-like adaptive vision for efficient and flexible machine visual perception)为题发表论文,提出AdaptiveNN架构,通过借鉴人类“主动自适应视觉”机制,逐步定位关键区域、累积多次注视信息,并在信息足够完成任务时主动终止感知过程。

AdaptiveNN模型在一个视觉环境中,依次在若干感兴趣区域上进行“注视”,逐步积累信息形成内部视觉表征,并动态决定何时结束该过程。在每一步,Vision Agent基于当前的内部视觉表征评估任务完成度,若信息不足,则通过策略网络选择下一次注视位置。每个选定的注视区域由表征提取网络提取深度特征,从而不断更新内部视觉表征用于后续决策。AdaptiveNN的整体框架模拟了人类从全局到局部、从粗到细的视觉感知策略,使神经网络具备了类人式的主动感知能力,突破了传统视觉模型的效率瓶颈。

AdaptiveNN在设计上具有较强的兼容性和灵活性,适用于多种不同的深度神经网络基础架构(如卷积网络、Transformer等)和多种任务类型(如视觉识别、具身视觉感知、视觉-语言多模态联合建模等)。

清华大学自动化系宋士吉、黄高团队提出具备人自适应主动感知能力的动态神经网络架构

图3.AdaptiveNN的网络架构和推理过程

AdaptiveNN的训练过程同时涉及连续变量(如从注视区域中提取特征)和离散变量(如决定下一次注视位置)的优化。具体而言,从期望优化目标出发,对整体损失函数进行分解,AdaptiveNN的端到端优化过程可自然地分解为两项:第一项为表征学习目标(representation learning),对应于从注视区域中提取任务相关的特征;第二项为自激励强化学习目标(self-rewarding reinforcement learning),对应于优化注视位置的分布,驱使模型的主动注视行为实现最大化的任务收益。这一理论结果揭示了AdaptiveNN的内在学习规律:主动感知的优化本质上是表征学习与强化学习的统一。

清华大学自动化系宋士吉、黄高团队提出具备人自适应主动感知能力的动态神经网络架构

图4.自激励强化学习驱动的端到端主动视觉感知行为学习

研究团队在九类典型视觉任务上对AdaptiveNN进行了实测验证,AdaptiveNN展现出了高效、灵活和透明的特点

清华大学自动化系宋士吉、黄高团队提出具备人自适应主动感知能力的动态神经网络架构

图5.ImageNet大规模视觉识别任务上的定性和定量实验结果

研究团队进一步将AdaptiveNN应用于具身智能的基础模型——视觉语言动作模型(VLA)。结果表明,该框架在复杂操作场景中显著提升了具身基础模型的推理与感知效率,在保持任务成功率的同时将计算效率提升4.4至5.9倍。

清华大学自动化系宋士吉、黄高团队提出具备人自适应主动感知能力的动态神经网络架构

图6.ApdativeNN应用于VLA具身任务的实验结果

综上,AdaptiveNN提供了一种通用的高效视觉模型,对认知科学的研究具有启发意义,有望用于模拟和检验人类的注意力分配、感知学习以及复杂任务中的视觉决策机制,为认知科学提供新的视角和工具。

清华大学自动化系2019级博士生王语霖,2022级博士生乐洋、乐阳为论文共同第一作者,自动化系教授宋士吉、副教授黄高为论文共同通讯作者。研究得到国家重点研发计划青年科学家项目、国家自然科学基金重大仪器研制项目、联合重点项目等的资助。


版权声明:
文章来源清华大学,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议

第七届计算机信息和大数据应用国际学术会议(CIBDA 2026)(2026-03-20)

2026年大数据与智能制造国际学术会议(BDIM 2026)(2026-03-20)

第六届智能制造与新材料国际学术会议(IMNM 2026)(2026-03-20)

2026年智慧交通与检测技术国际会议(ITDT 2026)(2026-03-25)

2026年第五届算法、计算和机器学习国际会议(CACML 2026)(2026-03-27)

2026年第六届智能机器人系统国际会议(ISoIRS 2026)(2026-03-27)

2026年人工智能教育技术与数据科学国际学术会议(AIETDS 2026)(2026-03-27)

第六届物联网与智慧城市国际学术会议(IoTSC 2026)(2026-03-27)

第十五届春季国际工程与技术大会 (SCET 2026)(2026-04-17)

2026年金融科技、创新与信息技术国际会议(2026-04-18)

2026年智能机器人与人机交互技术国际会议(ICIRHCIT 2026)(2026-4-25)

2026设计、文化与教育科学国际会议(ICDCES 2026)(2026-3-28)

2026年建筑技术与工程管理国际会议(ICBTEM 2026)(2026-5-22)

2026年可再生能源、氢能与先进储能国际会议(REHEAES 2026)(2026-5-20)

2026年通信、信号处理与智能电网国际会议(CSPSG 2026)(2026-4-26)

2026年数据分析与仿真国际会议(ICSDA 2026)(2026-5-28)

2026文化设计、教育与心理学国际学术会议(ICCDEP 2026)(2026-3-30)

2026年环境预防与新型材料国际学术会议(EPNM 2026)(2026-4-26)

2026导航技术、物流规划与城市建设国际会议(NTLPUC 2026)(2026-3-29)

2026年新媒体发展与现代化教育国际会议(MENMDI 2026)(2026-4-25)

小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。
综合推荐区

学术科研网址导航,430+站,定制学术书签

2026年IEEE第六届先进电气,电子与计算.

2026年第五届云计算、计算机视觉和图像处理.

2026年第五届亚洲算法、计算与机器学习国际.

2026年动力学与机械工程国际学术研讨会 (.

2026年IEEE第八届软件工程和计算机科学.

2026年第八届计算机图形学、图像与可视化国.

第八届信息科学、电气与自动化工程国际学术会议.

2026年多尺度人工智能国际会议(MAI 2.

第三届机器学习与智能计算国际学术会议(MLI.

第六届自动化控制、算法与智能仿生国际学术会议.

2026 年第三届计算,机器学习与数据科学国.

第十三届先进制造技术与材料工程国际学术会议 .

第二届人工智能与产品设计国际学术会议 (AI.

2026年量子计算与人工智能国际学术会议(I.

2026年第六届计算机视觉与模式分析国际学术.

第七届机械仪表与自动化国际学术会议(ICMI.

2026年第四届亚洲机器学习、算法与神经网络.

2026年第四届亚洲计算机视觉、图像处理与模.

2026年人工智能与数据挖掘国际学术会议(A.

2026年IEEE第七届计算,网络与物联网国.

2026年第五届网络、通信与信息技术国际会议.

2026年智能机器人与控制技术国际会议(CI.

2026年智能系统与计算国际会议 (ICIS.

2026年电子, 通信与计算机科学国际会议 .

2026年IEEE第三届先进机器人, 自动化.