合肥工业大学在视听多模态场景理解研究方面取得进展_科研信息_学术资讯

当前位置：首页 >> 学术资讯 >> 科研信息

第四届信息经济、数据建模与云计算国际学术会议（ICIDC 2025）

第七届光电科学与材料国际学术会议 (ICOSM 2025)

2025年计算智能与机器人国际学术会议（CIR 2025)

2025年智能计算与系统仿真国际会议(ICSS 2025)

第五届电子材料与信息工程国际学术会议 (EMIE 2025)

第二届教育人工智能国际学术会议（ISAIE 2025）

2025年先进半导体器件与集成技术国际学术会议（ASDIT 2025）

2025年地质、能源与油气勘探国际学术会议（GEOGE 2025）

第八届人文教育与社会科学国际学术会议（ICHESS 2025）

第二届信号处理与神经网络应用国际学术会议（SPNNA 2025）

第五届生物医学与生物信息工程国际学术会议 (ICBBE 2025)

第九届交通工程与运输系统国际学术会议（ICTETS 2025）

2025年低空经济论坛暨低空飞行技术与无人机应用国际学术会议（LEF & ICLU 2025）

2025年图像、信号处理与机器学习国际学术会议（ISPML 2025）

第三届算法、图像处理与机器视觉国际学术会议（AIPMV2025）

2025年人工智能、虚拟现实与交互设计国际学术会议(AIVRID 2025)

合肥工业大学在视听多模态场景理解研究方面取得进展

2024/04/12

图视听多模态场景理解研究示意图

　　在国家自然科学基金项目（批准号：61725203、62020106007、62272144、72188101）资助下，合肥工业大学汪萌研究团队在视听多模态场景理解研究方面取得进展。最新研究成果以“沿着视听事件线的对比正样本传播（Contrastive Positive Sample Propagation along the Audio-Visual Event Line）”为题，近日在线发表于《IEEE模式分析与机器智能汇刊》（IEEE Transactions on Pattern Analysis and Machine Intelligence, TPAMI），论文链接：https://ieeexplore.ieee.org/document/9956870。

　　自然生活中充斥着大量的声音和视觉信号，且两种信号往往伴随发生，比如，在一场音乐会中我们既能看到演奏家在深情地演奏乐器，也能听到美妙的音乐声。得益于听觉和视觉这两种最重要的感官，人类可以更全面准确地认知周边事物。如何让机器模仿人类这种智能，理解多模态的视听信号，是一个具有挑战且蕴含巨大价值的科学问题。

　　该团队从探究音频信号和视觉信号的对应关系入手，针对视听事件定位任务提出了简单高效的正样本传播网络。该方法能够让模型从视频中感知最高度相关的音频-图像片段对进行特征聚合，从而学习更具判别力的视听特征表达。该方法相比于领域内现有其他研究方法，可在网络可学习参数量降低近90%的情况下，取得具有竞争力的性能。同时，该团队还构建了一个大规模的视听事件定位任务数据集，并基于此做了网络的泛化性研究。

　　近年来，团队联合商汤科技等提出视听分割任务，让机器学习拥有定位并分割出发声物体的智能，相关研究工作以“视听分割（Audio-Visual Segmentation）”为题发表在当年《欧洲计算机视觉会议》（European Conference on Computer Vision）上。最新的研究成果聚焦于让机器对一个视频生成包含音频和视觉信息的精细化描述，相关工作以“精细化音视频描述 (Fine-grained Audible Video Description)”为题被2023年《计算机视觉和模式识别会议》（IEEE Computer Vision and Pattern Recognition conference）接收。

版权声明：
文章来源国家自然科学基金委员会，分享只为学术交流，如涉及侵权问题请联系我们，我们将及时修改或删除。

相关学术资讯

我国学者在各向异性光学晶体材料研究方面取得进展

清华大学教授在互联网基础协议风险识别与防范方面取得进展

清华大学水利系龙笛团队揭示全球百万湖泊水域面积的多尺度动态与季节性主导机制

北京大学心血管研究所张岩团队在缺血性心脏病防治方面取得新进展

清华大学航院吕存景课题组发现界面自发对称性破缺诱导液体自输运

我国学者在肿瘤病理影像微观信息解析算法方面取得突破

北京大学物理学院何琼毅教授、龚旗煌院士课题组在远程制备非高斯量子态方面取得重要进展

中国科学院化学研究所郑健研究员课题组在碳家族单晶新材料创制方面取得突破

华东师范大学齐大龙研究员在超快复振幅光学成像方面取得进展

北京航空航天大学北航王少萍教授团队：油浸式电静液作动器的动态累积热耦合建模与特性分析