中国农业大学工学院农机装备智能化设计与制造创新团队在计算机视觉领域取得进展
2025/09/05
8月19日,农机装备智能化设计与制造创新团队杜岳峰副教授在《先进科学》(Advanced Science,IF5years=15.6)在线发表了《认知启发的神经网络建模框架在计算机视觉中的潜力》(The Potential of Cognitive-Inspired Neural Network Modeling Framework for Computer Vision)的研究论文。
本研究立足于人工智能与认知科学,聚焦于认知启发的视觉深度神经网络建模方法和视觉模型的底层范式,将抽象的认知理论形式化为数学表示,同时实现了理论和概念映射到可扩展和训练的程序代理,这一范式展示了认知启发式人工智能的广泛潜力,有望改变我们设计和理解人工智能系统的方式由纯粹的工程优化(对数据分布的有效拟合)过渡到仿生设计(结合人类智能内涵的认知机制),同时推动机器人具身智能系统由单纯的感知驱动向认知驱动转变,为机器人具身智能的安全性与可控性奠定坚实基础。
长短时记忆网络(LSTM)和胶囊网络(CapsuleNet)通常被视为人工智能与认知科学交叉的起点。由于描述认知系统运行机制的理论通常由高度抽象的“方框-箭头”图描述,且这些理论缺乏明确的数学公式或计算过程,而视觉模型强调通过数值计算从大规模训练数据中自动学习潜在的逻辑和模式。视觉模型与认知理论在功能实现上的分歧反映了人工智能与认知科学之间的差距,现阶段的研究主要集中于在视觉模型中复制人类视觉注意力的信息筛选机制,而非模拟形成注意力的复杂认知系统(图a),导致视觉模型及其基础算子的性能过度依赖于训练数据的规模和质量。因此,融合认知理论指导视觉模型底层算子和架构的开发存在功能抽象、数值建模和规则约束等众多开放且具有挑战性的问题。
为解决上述问题,该研究提出了一个允许将抽象的认知理论转化为可计算表示的建模理论(CMF)(图b),CMF包含三个步骤:功能抽象(步骤一)、算子结构化(步骤二)和程序代理(步骤三)。同时,在CMF中引入了三个核心概念:功能泛函、计算图和代理程序。这些概念使得认知功能及其之间的因果逻辑能够被嵌入到模型的计算过程中,并作为算子计算原理和学习目标的明确约束。为了在视觉模型中模拟长时记忆,创新性地提出将视觉模型的长时记忆定义为由图像中的基本特征组成的先验信息,并开发了一种名为无偏映射算法(UMA)的长时记忆建模方法(图c),该方法使用快速傅立叶变换和统计方法从大规模数据中无监督地提取先验信息;最后,基于CMF和UMA开发了视觉认知神经单元(VCNU)和视觉认知模型(VCogM)(图d),并在自然场景识别任务上进行了性能测试。为了验证该方法在农业领域的潜力,开发了一个包含17万张农业图像的基准数据集(Agri170K),并在此数据集上对VCNU与VCogM进行了性能测试。实验结果表明,VCogM和VCNU在所有任务中均获得了较先进的性能。同时,发现VCogM的学习过程与数据分布和规模无关,充分证明了认知启发式视觉模型的先进性。
(a)人脑中视觉注意力形成过程(b)认知建模框架(c)无偏映射算法(d)实例化代理程序
该项研究得到农业科技重大项目、中国农业大学学科交融拓新计划—“智慧农业及智能装备数字孪生体构建理论与方法”等项目资助。中国农业大学为唯一单位,博士研究生李国润和博士后刘磊为共同第一作者,杜岳峰副教授为通讯作者,创新团队负责人宋正河教授以及团队成员武秀恒副教授、栗晓宇老师对研究工作给予了重要支持。
该项成果展示了团队在通用计算机视觉和人工智能的基础研究实力,团队将继续围绕“智能农机装备+AI”,在跨学科交叉、理论创新和工程实践持续投入,形成具有中国农大特色的研究和理论体系。为促进行业发展,团队一致同意将该研究成果开源,以实际行动践行“强国先强农,农大作先锋”的号召与使命。详细代码已发布至:https://github.com/CAU-COE-VEICLab/Vision-Cognitive-Neural-Networks
文章来源中国农业大学,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2025年11月优质学术会议推荐 16
-
2025年机器视觉、智能成像与模式识 392
-
2025年第七届控制与机器人国际会议 576
-
2025年智能光子学与应用技术国际学 1529
-
2025年机械工程,新能源与电气技术 1790
-
2025年计算机科学、图像分析与信号 2065
-
2025年材料化学与燃料电池技术国际 1861
-
2025年自动化前沿系统、智慧城市与 10-23
-
2025年信息光学、遥感技术与机器视 10-23
-
2025年数字人文、文化遗产与语言学 10-23
-
2025年神经科学、生物信息学与智能 10-23
-
2025年语言认知、人工智能与计算建 10-23
-
2025年社会科学、应用语言学与人文 10-23
-
2025年传统机械、动力学与智能装备 10-23
-
2025年图像处理、物理建模与结构设 10-23
-
2025年两院院士增选有效候选人1145
-
2025最新JCR分区及影响因子4758
-
好学术:科研网址导航|学术头条分2033
-
2025年国际期刊预警名单发布!1930
-
2025年中科院期刊分区表重磅发8447
-
中国科协《重要学术会议目录(205134
-
吉林大学校长张希:学术会议中的提2840
-
清华大学地学系阳坤课题组揭示全球10-20
-
历史时期极端干旱灾害的数据评估和10-20
-
“清华化学百年论坛:塑造化学的未10-20
-
研究揭示植物激素独脚金内酯作为跨10-20
-
清华大学联合研发的“46MW大容10-20
-
清华大学(软件学院)-九疆电力建10-20
-
中国农业大学土地学院马韫韬教授团10-20
-
电子科技大学光电学院本科生在一区10-20
-
浙江理工大学 23214

-
西北工业大学 18259

-
沈阳沈河学小 18174

-
北京艾尚国际展览有限公司 2163

-
绵阳市会议中心 23183

-
沈阳博思教育咨询有限公司 2020

-
辽宁工业大学 18277

-
首都儿科研究所 2221

-
国际工学技术出版协会 8154

-
中国食品药品监管信息网 2030

-
固体废物管理与技术国际会议 18123

-
北京邮电大学 18375

-
神康医院 21063

-
南京海旗新科技有限公司 8151

-
希沿医疗投资管理有限公司 18515

-
上海生物谷 24029

-
湖北工程学院 21424

-
上海浩韵文化传播有限公司 2124

-
领将信息科技(上海)有限公司 2048

-
WILL 21040

















94














































