合肥工业大学在视听多模态场景理解研究方面取得进展
2024/04/12
![]() |
图 视听多模态场景理解研究示意图
在国家自然科学基金项目(批准号:61725203、62020106007、62272144、72188101)资助下,合肥工业大学汪萌研究团队在视听多模态场景理解研究方面取得进展。最新研究成果以“沿着视听事件线的对比正样本传播(Contrastive Positive Sample Propagation along the Audio-Visual Event Line)”为题,近日在线发表于《IEEE模式分析与机器智能汇刊》(IEEE Transactions on Pattern Analysis and Machine Intelligence, TPAMI),论文链接:https://ieeexplore.ieee.org/document/9956870。
自然生活中充斥着大量的声音和视觉信号,且两种信号往往伴随发生,比如,在一场音乐会中我们既能看到演奏家在深情地演奏乐器,也能听到美妙的音乐声。得益于听觉和视觉这两种最重要的感官,人类可以更全面准确地认知周边事物。如何让机器模仿人类这种智能,理解多模态的视听信号,是一个具有挑战且蕴含巨大价值的科学问题。
该团队从探究音频信号和视觉信号的对应关系入手,针对视听事件定位任务提出了简单高效的正样本传播网络。该方法能够让模型从视频中感知最高度相关的音频-图像片段对进行特征聚合,从而学习更具判别力的视听特征表达。该方法相比于领域内现有其他研究方法,可在网络可学习参数量降低近90%的情况下,取得具有竞争力的性能。同时,该团队还构建了一个大规模的视听事件定位任务数据集,并基于此做了网络的泛化性研究。
近年来,团队联合商汤科技等提出视听分割任务,让机器学习拥有定位并分割出发声物体的智能,相关研究工作以“视听分割(Audio-Visual Segmentation)”为题发表在当年《欧洲计算机视觉会议》(European Conference on Computer Vision)上。最新的研究成果聚焦于让机器对一个视频生成包含音频和视觉信息的精细化描述,相关工作以“精细化音视频描述 (Fine-grained Audible Video Description)”为题被2023年《计算机视觉和模式识别会议》(IEEE Computer Vision and Pattern Recognition conference)接收。
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2025年11月优质学术会议推荐 16
-
2025年机器视觉、智能成像与模式识 392
-
2025年第七届控制与机器人国际会议 576
-
2025年智能光子学与应用技术国际学 1529
-
2025年机械工程,新能源与电气技术 1790
-
2025年计算机科学、图像分析与信号 2065
-
2025年材料化学与燃料电池技术国际 1861
-
2025年自动化前沿系统、智慧城市与 10-23
-
2025年信息光学、遥感技术与机器视 10-23
-
2025年数字人文、文化遗产与语言学 10-23
-
2025年神经科学、生物信息学与智能 10-23
-
2025年语言认知、人工智能与计算建 10-23
-
2025年社会科学、应用语言学与人文 10-23
-
2025年传统机械、动力学与智能装备 10-23
-
2025年图像处理、物理建模与结构设 10-23
-
2025年两院院士增选有效候选人1145
-
2025最新JCR分区及影响因子4758
-
好学术:科研网址导航|学术头条分2033
-
2025年国际期刊预警名单发布!1930
-
2025年中科院期刊分区表重磅发8447
-
中国科协《重要学术会议目录(205134
-
吉林大学校长张希:学术会议中的提2840
-
清华大学地学系阳坤课题组揭示全球10-20
-
历史时期极端干旱灾害的数据评估和10-20
-
“清华化学百年论坛:塑造化学的未10-20
-
研究揭示植物激素独脚金内酯作为跨10-20
-
清华大学联合研发的“46MW大容10-20
-
清华大学(软件学院)-九疆电力建10-20
-
中国农业大学土地学院马韫韬教授团10-20
-
电子科技大学光电学院本科生在一区10-20
-
沈阳大学沈阳大学 21133

-
中华医学会行为医学分会 18203

-
中国协会 18174

-
WW 8331

-
iwmsme2017 organ 24023

-
北京恒跃展览有限公司 8177

-
中科成创(北京)生物技术有限公司 8016

-
国防科技大学航天科学与工程学院空 18242

-
北京中国人民大学商学院 21250

-
安徽中设明德会展有限公司 8275

-
农民权益保护与区域发展研究中心 2160

-
维科信息产业研究中心 23021

-
亚太科学与工程研究所 24134

-
FVDAGWE 2123

-
北京中材企联新材料技术研究中心 20998

-
中国知识产权研究会 18059

-
江苏省无锡市 18636

-
北京久久国际会展有限公司 22969

-
南京市东南大学 2345

-
重庆计算机学会 18164

















695












































