我国学者在跨媒体智能计算领域取得进展
2025/06/03
![]() |
图 基于多重知识表达的音-视频跨媒体感知算法,获ACM Multimedia 2023唯一最佳论文奖(1/3072)
跨媒体智能计算综合了人工智能与多媒体计算的相关核心技术,主要研究多媒体内容的对齐、表达、理解和推理等理论与方法,目标是实现对外部世界的智能化感知、认知与重现,对具身智能、元宇宙等领域的发展具有重要推动作用。
在国家自然科学基金项目(批准号:62293554、U2336212、61976185、U19B2043)等资助下,浙江大学杨易教授和肖俊教授项目组深入探索新一代跨媒体智能基础理论和计算框架,取得进展。项目组针对基于多重知识表达的跨媒体计算框架展开系统性研究,突破了纯数据驱动的跨媒体智能计算在可控性、可解释性、鲁棒性等方面的瓶颈;通过在跨媒体学习过程中综合深度特征表达、语义结构知识、知识图谱、大模型世界知识等不同抽象层次的知识,克服了以往单一知识形态无法兼顾强表征与易解释的不足,构建了更加可靠、可解释的跨媒体表达。与国内外跨媒体建模和计算技术相比,提高了跨媒体智能算法在复杂开放环境下的泛化能力、解释能力和推理能力。相关研究成果为跨媒体智能研究提供了新思路、新理论,推动了基于多重知识表达的新型跨媒体智能计算的技术发展,有望助力我国在知识和数据双轮驱动的人工智能方向上取得突破。
相关研究成果在《IEEE模式分析与机器智能汇刊(TPAMI)》(SCI一区、影响因子23.6、CCF-A类)、《神经信息处理系统大会(NeurIPS)》(CCF-A类、H5-index 309)、《IEEE国际计算机视觉与模式识别会议(CVPR)》(CCF-A类、H5-index 422)、《计算机视觉国际大会(ICCV)》(CCF-A类、H-index 254)等人工智能领域的国际期刊和会议上发表,并获得2023年多媒体领域国际学术会议ACM Multimedia(CCF-A类)唯一最佳论文奖(图)以及2021年浙江省科学技术进步奖一等奖,以及十余项CCF-A类会议国际学术竞赛的世界冠军,应邀在多个CCF-A类会议做学术报告。被来自哈佛、普林斯顿、卡内基梅隆、牛津、剑桥等高校和微软、Meta、亚马逊等企业的研究团队引用,获得多位国际学者的正面评价。成功应用于华为跨媒体搜索引擎,以及阿里、百度、海康威视等企业的业务场景。
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2025年两院院士增选有效候选人116
-
2025最新JCR分区及影响因子2461
-
好学术:科研网址导航|学术头条分641
-
2025年国际期刊预警名单发布!770
-
2025年中科院期刊分区表重磅发4295
-
中国科协《重要学术会议目录(202964
-
吉林大学校长张希:学术会议中的提1619
-
2025年国自然正式放榜!08-27
-
SCI论文中的数据引用,如何避免08-15
-
EI核心期刊和普通期刊有什么本质08-15
-
国内期刊EI与核心有什么区别?三08-15
-
怎么查找前几年的EI期刊源?科研08-15
-
如何准确验证论文是否被SCI收录08-15
-
机械类EI期刊投稿全攻略:从实验08-15
-
SCI论文DOI号查找全攻略:学08-15
-
浙江工业大学 18038
-
北京艾尚国际展览有限公司 23932
-
应用力学,机电一体化及智能化系统 21014
-
江苏省医学会 21039
-
沈阳中意国际旅行社有限公司 21157
-
深圳市坪山燕子湖国际会展中心管理 1061
-
沈阳市仪器仪表与自动化学会 23126
-
河南科技学院 18488
-
北京交通大学 23300
-
东吴期货有限公司 18082
-
广州国龙会议策划服务有限公司 24070
-
广东省康复医学会 21049
-
百奥泰国际会议(大连)有限公司 1944
-
山东三汇医疗科技有限公司 7978
-
湖北武汉古凡网络科技 24119
-
同济戴斯大酒店 18288
-
ICSD2017组委会 23972
-
广东标杆会展有限公司 7952
-
中山市富兴塑胶异型材厂 20905
-
北京科技大学 23023