清华大学自动化系宋士吉、黄高团队提出具备人自适应主动感知能力的动态神经网络架构_科研信息_学术资讯

当前位置：首页 >> 学术资讯 >> 科研信息

第二届智能医疗与可穿戴智能设备国际学术会议（SHWID 2025）

第五届信号处理与通信技术国际学术会议（SPCT 2025）

第五届文化、设计与社会发展国际学术会议(CDSD 2025)

2025电子信息、计算机与空天遥感国际会议（EICARS 2025）

第六届材料化学与复合材料国际学术会议（MCCM 2025）

第六届新能源与电气科技国际学术研讨会 (ISNEET 2025)

第七届国际科技创新学术交流大会暨新能源科学与电力工程国际学术会议（NESEE 2025）

第五届高性能计算、大数据与通信工程国际学术会议(ICHBC 2025)

第五届计算机、物联网与控制工程国际学术会议（CITCE 2025)

第七届国际科技创新学术交流大会（IAECST 2025）

2025年艺术、教育和管理国际学术会议（ICAEM 2025）- 第七期

2025年具身智能与大模型国际学术会议（EILM 2025）

2025第二届模式识别与图像分析国际学术会议（PRIA 2025）

第二届无人系统与自动化控制国际学术会议（ICUSAC 2025）

第二届光电科学与智能传感国际学术会议 (ICOIS 2026)

第五届电子信息与通信工程国际学术会议(EICE 2026)

清华大学自动化系宋士吉、黄高团队提出具备人自适应主动感知能力的动态神经网络架构

2025/11/25

文章导读

当AI视觉模型还在为算力挣扎、能耗飙升而寸步难行时，人类大脑却能以极低能耗精准捕捉关键信息——这个困扰学界十年的效率困局，清华团队终于破解！宋士吉、黄高团队在《自然·机器智能》重磅推出AdaptiveNN架构，首次实现机器"主动眨眼"：像人类一样动态聚焦关键区域，边看边学，信息足够即停。实测在九类任务中计算效率暴增4.4-5.9倍，更兼容卷积网络与Transformer，让机器人、手机等边缘设备也能流畅运行高级视觉。揭秘类人感知背后的技术革命，效率瓶颈从此成为历史。

— 内容由好学术AI分析文章内容生成，仅供参考。

过去几十年间，计算机视觉研究取得了突破性进展。然而，深度神经网络驱动的计算机视觉模型在功耗、存储和响应时延等方面存在显著的效率瓶颈，难以广泛部署于机器人、移动设备或边缘终端等资源受限的场景。此外，大型视觉模型巨大的训练与推理开销也使算力瓶颈问题和环境可持续性问题变得尤为突出。

图1.当前计算机视觉范式所面临的能效瓶颈

人类视觉系统能在庞杂的视觉输入中快速筛取要点，大幅降低冗余计算，使得人类高度复杂的视觉系统能够高效、快速运行。无论外界场景多么复杂，人类视觉系统的能耗主要取决于注视带宽与注视次数，而非全局像素量。早在2015年，深度学习三位主要奠基人杨立昆（Yann LeCun）、本吉奥（Bengio）和辛顿（Hinton）便指出，未来的AI视觉系统应具备类人的、任务驱动的主动观察能力。然而近十年以来，这一方向仍缺乏系统性研究。

图2.人类视觉系统的主动自适应感知策略

11月6日，清华大学自动化系宋士吉教授、黄高副教授团队在《自然·机器智能》（Nature Machine Intelligence）上以“模拟人类自适应视觉，实现高效灵活的机器视觉感知”（Emulating human-like adaptive vision for efficient and flexible machine visual perception）为题发表论文，提出AdaptiveNN架构，通过借鉴人类“主动自适应视觉”机制，逐步定位关键区域、累积多次注视信息，并在信息足够完成任务时主动终止感知过程。

AdaptiveNN模型在一个视觉环境中，依次在若干感兴趣区域上进行“注视”，逐步积累信息形成内部视觉表征，并动态决定何时结束该过程。在每一步，Vision Agent基于当前的内部视觉表征评估任务完成度，若信息不足，则通过策略网络选择下一次注视位置。每个选定的注视区域由表征提取网络提取深度特征，从而不断更新内部视觉表征用于后续决策。AdaptiveNN的整体框架模拟了人类从全局到局部、从粗到细的视觉感知策略，使神经网络具备了类人式的主动感知能力，突破了传统视觉模型的效率瓶颈。

AdaptiveNN在设计上具有较强的兼容性和灵活性，适用于多种不同的深度神经网络基础架构（如卷积网络、Transformer等）和多种任务类型（如视觉识别、具身视觉感知、视觉-语言多模态联合建模等）。

图3.AdaptiveNN的网络架构和推理过程

AdaptiveNN的训练过程同时涉及连续变量（如从注视区域中提取特征）和离散变量（如决定下一次注视位置）的优化。具体而言，从期望优化目标出发，对整体损失函数进行分解，AdaptiveNN的端到端优化过程可自然地分解为两项：第一项为表征学习目标（representation learning），对应于从注视区域中提取任务相关的特征；第二项为自激励强化学习目标（self-rewarding reinforcement learning），对应于优化注视位置的分布，驱使模型的主动注视行为实现最大化的任务收益。这一理论结果揭示了AdaptiveNN的内在学习规律：主动感知的优化本质上是表征学习与强化学习的统一。