我国学者在跨媒体智能计算领域取得进展
2025/06/03
![]() |
图 基于多重知识表达的音-视频跨媒体感知算法,获ACM Multimedia 2023唯一最佳论文奖(1/3072)
跨媒体智能计算综合了人工智能与多媒体计算的相关核心技术,主要研究多媒体内容的对齐、表达、理解和推理等理论与方法,目标是实现对外部世界的智能化感知、认知与重现,对具身智能、元宇宙等领域的发展具有重要推动作用。
在国家自然科学基金项目(批准号:62293554、U2336212、61976185、U19B2043)等资助下,浙江大学杨易教授和肖俊教授项目组深入探索新一代跨媒体智能基础理论和计算框架,取得进展。项目组针对基于多重知识表达的跨媒体计算框架展开系统性研究,突破了纯数据驱动的跨媒体智能计算在可控性、可解释性、鲁棒性等方面的瓶颈;通过在跨媒体学习过程中综合深度特征表达、语义结构知识、知识图谱、大模型世界知识等不同抽象层次的知识,克服了以往单一知识形态无法兼顾强表征与易解释的不足,构建了更加可靠、可解释的跨媒体表达。与国内外跨媒体建模和计算技术相比,提高了跨媒体智能算法在复杂开放环境下的泛化能力、解释能力和推理能力。相关研究成果为跨媒体智能研究提供了新思路、新理论,推动了基于多重知识表达的新型跨媒体智能计算的技术发展,有望助力我国在知识和数据双轮驱动的人工智能方向上取得突破。
相关研究成果在《IEEE模式分析与机器智能汇刊(TPAMI)》(SCI一区、影响因子23.6、CCF-A类)、《神经信息处理系统大会(NeurIPS)》(CCF-A类、H5-index 309)、《IEEE国际计算机视觉与模式识别会议(CVPR)》(CCF-A类、H5-index 422)、《计算机视觉国际大会(ICCV)》(CCF-A类、H-index 254)等人工智能领域的国际期刊和会议上发表,并获得2023年多媒体领域国际学术会议ACM Multimedia(CCF-A类)唯一最佳论文奖(图)以及2021年浙江省科学技术进步奖一等奖,以及十余项CCF-A类会议国际学术竞赛的世界冠军,应邀在多个CCF-A类会议做学术报告。被来自哈佛、普林斯顿、卡内基梅隆、牛津、剑桥等高校和微软、Meta、亚马逊等企业的研究团队引用,获得多位国际学者的正面评价。成功应用于华为跨媒体搜索引擎,以及阿里、百度、海康威视等企业的业务场景。
文章来源国家自然科学基金委员会,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
好学术:科研网址导航|学术头条分232
-
《时代技术》投稿全攻略:一位审稿243
-
2025年国际期刊预警名单发布!374
-
2025年中科院期刊分区表重磅发3126
-
中科院已正式发布2024年预警期604
-
2025年度国家自然科学基金项目524
-
中国科协《重要学术会议目录(201759
-
2024年国家自然科学基金项目评896
-
2024年JCR影响因子正式发布887
-
吉林大学校长张希:学术会议中的提1103
-
如何成功度过研究生生涯,三件事助06-13
-
离开国企,圆梦985:一位青年的06-13
-
学术会议参与指南,会议交流技巧分06-13
-
刊物发表攻略:投稿技巧与注意事项06-13
-
技术创新,世界从此不同06-13
-
上海领思国际 1980
-
湖南商康医药电子商务有限公司 20993
-
华中师范大学 17896
-
WILL 7849
-
重庆文理学院 17922
-
广州威凯检测技术研究院 23987
-
峨眉山大酒店 22991
-
上海大陆期货有限公司 24163
-
江南大学 7941
-
中国石油化工股份有限公司安全工程 22996
-
中国医师学会检验医师分会 20971
-
东南大学 18122
-
东盟国际贸易投资商会 21030
-
中国化学化工行业中心 24004
-
北京合力飞扬文化有限公司 17910
-
中国金属协会分析测试分会 20870
-
同济大学 20877
-
北京文化与产业文化研究所 23022
-
湖南大学 20947
-
中国腐蚀与防护学会 17912