合肥工业大学在视听多模态场景理解研究方面取得进展
2024/04/12
![]() |
图 视听多模态场景理解研究示意图
在国家自然科学基金项目(批准号:61725203、62020106007、62272144、72188101)资助下,合肥工业大学汪萌研究团队在视听多模态场景理解研究方面取得进展。最新研究成果以“沿着视听事件线的对比正样本传播(Contrastive Positive Sample Propagation along the Audio-Visual Event Line)”为题,近日在线发表于《IEEE模式分析与机器智能汇刊》(IEEE Transactions on Pattern Analysis and Machine Intelligence, TPAMI),论文链接:https://ieeexplore.ieee.org/document/9956870。
自然生活中充斥着大量的声音和视觉信号,且两种信号往往伴随发生,比如,在一场音乐会中我们既能看到演奏家在深情地演奏乐器,也能听到美妙的音乐声。得益于听觉和视觉这两种最重要的感官,人类可以更全面准确地认知周边事物。如何让机器模仿人类这种智能,理解多模态的视听信号,是一个具有挑战且蕴含巨大价值的科学问题。
该团队从探究音频信号和视觉信号的对应关系入手,针对视听事件定位任务提出了简单高效的正样本传播网络。该方法能够让模型从视频中感知最高度相关的音频-图像片段对进行特征聚合,从而学习更具判别力的视听特征表达。该方法相比于领域内现有其他研究方法,可在网络可学习参数量降低近90%的情况下,取得具有竞争力的性能。同时,该团队还构建了一个大规模的视听事件定位任务数据集,并基于此做了网络的泛化性研究。
近年来,团队联合商汤科技等提出视听分割任务,让机器学习拥有定位并分割出发声物体的智能,相关研究工作以“视听分割(Audio-Visual Segmentation)”为题发表在当年《欧洲计算机视觉会议》(European Conference on Computer Vision)上。最新的研究成果聚焦于让机器对一个视频生成包含音频和视觉信息的精细化描述,相关工作以“精细化音视频描述 (Fine-grained Audible Video Description)”为题被2023年《计算机视觉和模式识别会议》(IEEE Computer Vision and Pattern Recognition conference)接收。
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
好学术:科研网址导航|学术头条分241
-
《时代技术》投稿全攻略:一位审稿256
-
2025年国际期刊预警名单发布!383
-
2025年中科院期刊分区表重磅发3204
-
中科院已正式发布2024年预警期613
-
2025年度国家自然科学基金项目533
-
中国科协《重要学术会议目录(201803
-
2024年国家自然科学基金项目评908
-
2024年JCR影响因子正式发布900
-
吉林大学校长张希:学术会议中的提1113
-
2025-6-16院校科研动态T06-17
-
煤炭与油页岩研究投稿指南:哪些二06-16
-
如何有效进行知识讲解?——从理论06-16
-
一审小修后必看!- 你的论文将经06-16
-
ACB的重投战略解码——金融机构06-16
-
河南纳智博研会议服务有限公司 23904
-
SCIence and Engi 2049
-
太原工业学院 2028
-
上海容智能源科技有限公司 8034
-
拓科技有限公司 20945
-
北京沃玉科技发展中心 8137
-
南京农业大学 17914
-
WILL 7869
-
武汉高流明投影机租赁公司 1857
-
山东大学计算机科学与技术学院 22915
-
天津市电子学会 20890
-
辽宁工程技术大学 18137
-
香港机械工程师协会 1866
-
济南兆龙文化传媒有限公司 1937
-
工业和信息化部电信研究院 22891
-
北京三德纵横医院管理咨询公司 17896
-
北京艾尚国际展览有限公司 7913
-
2017第二届国际土地复垦与生态 23933
-
西北大学中国西部经济发展研究中心 20929
-
大连百奥泰生物技术有限公司 17813