王选所穆亚东课题组发表电子商务多模态基础模型ECLIP_科研信息_学术资讯

当前位置：首页 >> 学术资讯 >> 科研信息

2026年传感器技术、自动化与智能制造国际会议（STAIM 2026）

第十一届材料科学与工程国际学术会议(ISAMSE 2026）

第二届导航、检测与控制国际学术会议（CNDC 2026)

第三届图像处理、多媒体技术与机器学习国际学术会议（IPMML 2026）

2026年智能医学与图像计算国际会议 (IMIC 2026)

第三届虚拟现实、图像和信号处理国际学术会议（VRISP 2026）

2026年具身智能、机器人与控制系统国际学术会议（EIRCS 2026）

第五届信息经济、数据建模与云计算国际学术会议（ICIDC 2026）

第三届数字媒体、通信与信息系统国际学术会议（DMCIS 2026）

2026年智能机器人与控制技术国际会议（CIRCT 2026）

第五届机械电子工程与人工智能国际学术会议（MEAI 2026）

第六届先进制造技术与电子信息国际学术会议（AMTEI 2026）

第十一届计算机与信息处理技术国际学术研讨会（ISCIPT 2026）

第三届大数据、神经网络与深度学习研讨会（BDNNDL 2026）

第六届计算机视觉、应用与算法国际学术会议（CVAA 2026）

2026年IEEE计算机通信、信息系统与网络安全国际会议(CCISC 2026)

2026年第五届算法、数据挖掘和信息技术国际会议(ADMIT 2026)

2026年人工智能与机器人系统国际会议(ICAIRS 2026)

2026年IEEE人工智能、大数据与云计算国际会议 (AIBDCC 2026)

2026年IEEE第二届电力与可持续能源技术国际会议(PSETC 2026)

王选所穆亚东课题组发表电子商务多模态基础模型ECLIP

2024/04/09

以GPT为代表的通用基础模型（foundation model）是人工智能领域近期的研究前沿。基础模型通过预训练等方式在海量数据上学习，再进行微调后用于解决多种下游应用任务。近期，王选计算机所穆亚东长聘副教授课题组在计算机视觉领域顶级会议CVPR 2023发表题为“Learning Instance-Level Representation for Large-Scale Multi-ModalPretraining in E-commerce”的论文。针对电子商务这一垂直应用领域，该工作提出了一种旨在学习商品实体级表的多模态基础模型ECLIP（E代表E-commerce，即电子商务）。通过在上亿级的电商业务数据上进行训练，ECLIP获得了视觉语言定位的能力，并在电商领域的诸多任务中取得了优异的性能，超过了许多传统的多模态学习方法。

电子商务的蓬勃发展给人们的日常生活带来了极大的便利，也由此出现了与之相关联的多种应用任务，如商品分类、检索、推荐等。与为每个特定的任务单独设计模型相比，为多个电商应用任务同时构建一个通用的基础模型可以增强其适用性，降低训练的成本。现阶段，在电子商务领域的数据通常以多个模态呈现，例如一个商品常包含详情图、评论图、商品标题、商品属性等多种模态的数据，可以利用这些多模态信息去学习通用的特征表示。然而，商品图像和自然图像的特点截然不同。自然图像中几乎每个区域都被其对应的文本所描述，电商图片中真正有用的信息往往由它所关联的商品标题所确定，只存在于图像中的某个特定区域。如图1中，“煎锅”或“咖啡机”等商品实例只占据整个图像的一部分，而图中其他物体如“电磁炉”等则和商品文本标题无关。如果像传统的多模态模型那样，简单地将整个图像视为一个整体来与文本进行跨模态对齐，将会不可避免地混淆商品实例和嘈杂的背景物体。因此，电子商务基础模型的核心难题之一是如何学习得到和商品相关的表示（instance-level representation）。

图1 自然图像和商品图像的区别

解决这一挑战需要模型具有视觉-语言精细定位的能力，即根据描述商品的文本内容定位到相关联的特定图像区域。本工作提出一种无须海量人工标注的策略，如图2所示，一个商品相关的图片通常来自不同的源头，例如商品详情页、商品广告视频、以及买家的评论等等。这些不同来源的数据中包含相同的商品实例（例如图中的“红宝石面霜”），因此可以利用这种显式的相关性自动获得弱标注来对模型进行训练。

图2 电子商务领域中存在的多图特性

在模型架构设计上，ECLIP引入了一个样例解码器（instance decoder）结构来提取图像中和商品实体相关的部分，包含了一组可学习的样例查询（instance query）来感知电商图片中潜在的商品实例信息。此外，每个样例查询依赖于特定的多模态提示（multi-modal prompt），用于感知特定类型的商品实例。图3为ECLIP模型的设计细节。

图3（a）ECLIP模型结构图及（b）样例解码器设计

为了优化ECLIP，该工作采用了三种新的代理任务（pretext task），包括图像文本对比学习，商品间和商品内多模态学习，促使样例查询关注到图像中商品实例所在的区域，而忽视其它不相关的物体。其中商品间的多模态学习任务如图4，包含了不同商品所提取的实例特征之间的对比学习（即使得属于同一商品的两则特征之间的相似度大于不同的商品）及商品文本匹配（即提取的实例特征应与其对应的商品文本描述相互匹配）。

图4 商品间对比学习任务

ECLIP的基础版本有220M参数，而大型版本含有450M的参数。为了优化ECLIP的参数，从电子商务网站中收集了大约一亿图像文本对，包含1500万个不同的商品，涵盖了服装、日用品、仪器等约9000个不同的类别。对于每个商品样本，都有相应的文字描述和来自商品详情页、客户评论和附加广告视频的图片。为了评估ECLIP的性能优越性，该文在多个电商下游任务上进行了实验，包括零样本商品分类、零样本商品定位等。与传统的多模态模型相比，ECLIP取得了显著的性能提升，验证了提取商品实例化表示在电子商务领域中的重要性。值得注意的是，在没有任何人工标注的情况下，ECLIP在视觉定位（grounding）等定位任务上仍然获得优异的性能。这充分说明了ECLIP学到了视觉语言定位的能力。图5给出了一些可视化结果。左图展示了商品图片与文本描述之间的相似度热力图，其中深色对应更高的相似度，可以看到同传统的多模态模型CLIP相比，ECLIP更容易正确地关注到与文本描述相对应的商品实例。右图也展示了ECLIP在定位任务上的优越性能。