合肥工业大学在视听多模态场景理解研究方面取得进展
2024/04/12
![]() |
图 视听多模态场景理解研究示意图
在国家自然科学基金项目(批准号:61725203、62020106007、62272144、72188101)资助下,合肥工业大学汪萌研究团队在视听多模态场景理解研究方面取得进展。最新研究成果以“沿着视听事件线的对比正样本传播(Contrastive Positive Sample Propagation along the Audio-Visual Event Line)”为题,近日在线发表于《IEEE模式分析与机器智能汇刊》(IEEE Transactions on Pattern Analysis and Machine Intelligence, TPAMI),论文链接:https://ieeexplore.ieee.org/document/9956870。
自然生活中充斥着大量的声音和视觉信号,且两种信号往往伴随发生,比如,在一场音乐会中我们既能看到演奏家在深情地演奏乐器,也能听到美妙的音乐声。得益于听觉和视觉这两种最重要的感官,人类可以更全面准确地认知周边事物。如何让机器模仿人类这种智能,理解多模态的视听信号,是一个具有挑战且蕴含巨大价值的科学问题。
该团队从探究音频信号和视觉信号的对应关系入手,针对视听事件定位任务提出了简单高效的正样本传播网络。该方法能够让模型从视频中感知最高度相关的音频-图像片段对进行特征聚合,从而学习更具判别力的视听特征表达。该方法相比于领域内现有其他研究方法,可在网络可学习参数量降低近90%的情况下,取得具有竞争力的性能。同时,该团队还构建了一个大规模的视听事件定位任务数据集,并基于此做了网络的泛化性研究。
近年来,团队联合商汤科技等提出视听分割任务,让机器学习拥有定位并分割出发声物体的智能,相关研究工作以“视听分割(Audio-Visual Segmentation)”为题发表在当年《欧洲计算机视觉会议》(European Conference on Computer Vision)上。最新的研究成果聚焦于让机器对一个视频生成包含音频和视觉信息的精细化描述,相关工作以“精细化音视频描述 (Fine-grained Audible Video Description)”为题被2023年《计算机视觉和模式识别会议》(IEEE Computer Vision and Pattern Recognition conference)接收。
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年6月优质国际学术会议推荐 7
-
2026年第17届机械与航空航天工程 193
-
2026年先进航空航天技术与卫星应用 324
-
2026资源、化学化工与应用材料国际 1808
-
2026年图像处理与数字创意设计国际 1632
-
2026年机械工程,新能源与电气技术 6095
-
2026年材料科学、低碳技术与动力工 1819
-
2026年艺术、文化产业与数字媒体国 04-29
-
2026年智慧教育、教育研究与文化交 04-29
-
2026年数字社会、公共管理与经济学 04-29
-
2026 政务服务、数字治理与智慧城 04-28
-
2026 制冷技术、暖通设备与环境调 04-28
-
2026 轻工材料、绿色制造与循环利 04-28
-
2026 多语言智能、翻译技术与国际 04-28
-
2026 生物育种、生态种植与现代农 04-28
-
中国科协发布2025年《重要学术12
-
2026年新锐分区(原中科院期刊2595
-
2025年两院院士增选有效候选人4402
-
2025最新JCR分区及影响因子12342
-
好学术:科研网址导航|学术头条分5673
-
2025年国际期刊预警名单发布!5837
-
2025年中科院期刊分区表重磅发20812
-
吉林大学校长张希:学术会议中的提6954
-
二维超导迈斯纳效应探测研究获进展04-29
-
研究发现笼目超导体中多重范霍夫奇04-29
-
二氧化碳加氢制高碳烯烃与航煤馏分04-29
-
靶向特定蛋白互作界面抑制乙肝病毒04-29
-
研究揭示内源信使调控膜损伤与细胞04-29
-
科学家绘制大脑星形胶质细胞转录因04-29
-
上海交大Bio-X研究院石毅与合04-29
-
云像(上海)数字技术有限公司 23350

-
深圳中亚会议公司 23342

-
江南大学理学院 21296

-
后勤工程学院 2410

-
河北医科第三医院 21219

-
尚体健康科技 2290

-
北京企发展览服务有限公司 21659

-
武汉琪德盛会议服务有限公司 8446

-
武汉青博盛学术服务有限公司 2281

-
河南省滑县人民医院 23376

-
天津市乾坤通翻译有限公司 18439

-
张家界运通会务会展有限公司 18427

-
哈尔滨工业大学管理学院 21334

-
湖南诗和远方出版文化传媒有限公司 8468

-
International As 8336

-
深圳职业技术学院 2662

-
北京仪多多信息技术有限公司 8311

-
上海博华国际展览有限公司 23466

-
企升会展公司 2231

-
中国图书馆学会 21938





















910







































