王选所穆亚东课题组发表电子商务多模态基础模型ECLIP
2024/04/09
以GPT为代表的通用基础模型(foundation model)是人工智能领域近期的研究前沿。基础模型通过预训练等方式在海量数据上学习,再进行微调后用于解决多种下游应用任务。近期,王选计算机所穆亚东长聘副教授课题组在计算机视觉领域顶级会议CVPR 2023发表题为“Learning Instance-Level Representation for Large-Scale Multi-ModalPretraining in E-commerce”的论文。针对电子商务这一垂直应用领域,该工作提出了一种旨在学习商品实体级表的多模态基础模型ECLIP(E代表E-commerce,即电子商务)。通过在上亿级的电商业务数据上进行训练,ECLIP获得了视觉语言定位的能力,并在电商领域的诸多任务中取得了优异的性能,超过了许多传统的多模态学习方法。
电子商务的蓬勃发展给人们的日常生活带来了极大的便利,也由此出现了与之相关联的多种应用任务,如商品分类、检索、推荐等。与为每个特定的任务单独设计模型相比,为多个电商应用任务同时构建一个通用的基础模型可以增强其适用性,降低训练的成本。现阶段,在电子商务领域的数据通常以多个模态呈现,例如一个商品常包含详情图、评论图、商品标题、商品属性等多种模态的数据,可以利用这些多模态信息去学习通用的特征表示。然而,商品图像和自然图像的特点截然不同。自然图像中几乎每个区域都被其对应的文本所描述,电商图片中真正有用的信息往往由它所关联的商品标题所确定,只存在于图像中的某个特定区域。如图1中,“煎锅”或“咖啡机”等商品实例只占据整个图像的一部分,而图中其他物体如“电磁炉”等则和商品文本标题无关。如果像传统的多模态模型那样,简单地将整个图像视为一个整体来与文本进行跨模态对齐,将会不可避免地混淆商品实例和嘈杂的背景物体。因此,电子商务基础模型的核心难题之一是如何学习得到和商品相关的表示(instance-level representation)。

图1 自然图像和商品图像的区别
解决这一挑战需要模型具有视觉-语言精细定位的能力,即根据描述商品的文本内容定位到相关联的特定图像区域。本工作提出一种无须海量人工标注的策略,如图2所示,一个商品相关的图片通常来自不同的源头,例如商品详情页、商品广告视频、以及买家的评论等等。这些不同来源的数据中包含相同的商品实例(例如图中的“红宝石面霜”),因此可以利用这种显式的相关性自动获得弱标注来对模型进行训练。

图2 电子商务领域中存在的多图特性
在模型架构设计上,ECLIP引入了一个样例解码器(instance decoder)结构来提取图像中和商品实体相关的部分,包含了一组可学习的样例查询(instance query)来感知电商图片中潜在的商品实例信息。此外,每个样例查询依赖于特定的多模态提示(multi-modal prompt),用于感知特定类型的商品实例。图3为ECLIP模型的设计细节。

图3(a)ECLIP模型结构图及(b)样例解码器设计
为了优化ECLIP,该工作采用了三种新的代理任务(pretext task),包括图像文本对比学习,商品间和商品内多模态学习,促使样例查询关注到图像中商品实例所在的区域,而忽视其它不相关的物体。其中商品间的多模态学习任务如图4,包含了不同商品所提取的实例特征之间的对比学习(即使得属于同一商品的两则特征之间的相似度大于不同的商品)及商品文本匹配(即提取的实例特征应与其对应的商品文本描述相互匹配)。

图4 商品间对比学习任务
ECLIP的基础版本有220M参数,而大型版本含有450M的参数。为了优化ECLIP的参数,从电子商务网站中收集了大约一亿图像文本对,包含1500万个不同的商品,涵盖了服装、日用品、仪器等约9000个不同的类别。对于每个商品样本,都有相应的文字描述和来自商品详情页、客户评论和附加广告视频的图片。为了评估ECLIP的性能优越性,该文在多个电商下游任务上进行了实验,包括零样本商品分类、零样本商品定位等。与传统的多模态模型相比,ECLIP取得了显著的性能提升,验证了提取商品实例化表示在电子商务领域中的重要性。值得注意的是,在没有任何人工标注的情况下,ECLIP在视觉定位(grounding)等定位任务上仍然获得优异的性能。这充分说明了ECLIP学到了视觉语言定位的能力。图5给出了一些可视化结果。左图展示了商品图片与文本描述之间的相似度热力图,其中深色对应更高的相似度,可以看到同传统的多模态模型CLIP相比,ECLIP更容易正确地关注到与文本描述相对应的商品实例。右图也展示了ECLIP在定位任务上的优越性能。

图5 ECLIP在跨模态定位和视觉检测任务上的可视化结果
通过在上亿级的电商业务多模态数据上进行训练和定制设计的编码器结构,ECLIP取得了优异的性能,目前已经在字节跳动的电商业务中进行部署应用。本文第一作者为前沿交叉学科研究院2020级博士生金阳,通讯作者为穆亚东,其他合作者还包括李勇志、袁泽寰(字节跳动公司)。
文章来源北京大学新闻网,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年4月高录用检索快国际学术会 32
-
2026年第六届计算机、控制和机器人 102
-
2026资源、化学化工与应用材料国际 1529
-
2026年人工智能教育技术与数据科学 535
-
2026年图像处理与数字创意设计国际 1294
-
2026年机械工程,新能源与电气技术 5759
-
2026年材料科学、低碳技术与动力工 1546
-
2026年第二届无线与光通信国际会议 2307
-
2026年增材制造、3D打印与创新设 03-13
-
2026年车辆工程与新能源汽车国际会 03-13
-
2026年精密机械、仪器仪表与传感技 03-13
-
2026年机器人技术、智能装备与自动 03-13
-
2026年通信系统、网络与信号处理国 03-13
-
2026年智能制造、工业互联网与数字 03-13
-
2026年环境治理、生态修复与碳中和 03-13
-
2025年两院院士增选有效候选人4233
-
2025最新JCR分区及影响因子10957
-
好学术:科研网址导航|学术头条分5358
-
2025年国际期刊预警名单发布!5441
-
2025年中科院期刊分区表重磅发18046
-
中国科协《重要学术会议目录(2010920
-
吉林大学校长张希:学术会议中的提6602
-
中国科大研制出机器人灵巧手指尖六03-11
-
研究揭示遗传多样性如何重塑微生物03-11
-
研究发现双酰胺类杀虫剂影响蜜蜂蜂03-11
-
研究揭示聚焦光场中内禀自旋纹理03-11
-
新型磁流体机器人破解临床难题03-11
-
南京大学物理学院温锦生课题组在亚03-11
-
南京大学物理学院高力波、袁国文团03-11
-
南京大学AI4S再立新功:南京大03-11
-
MHT 8498

-
浙江省书法家协会 18247

-
点时文化传媒(北京)有限公司 2186

-
武汉市cbb会议主办 18450

-
山东恒翠会议服务有限公司 8474

-
上海英致商务咨询有限公司 23267

-
湖北学而升文化传播有限公司 24343

-
中国灾害防御协会风险分析专业委员 21333

-
北京高博特广告有限公司 21276

-
武汉红矮星传媒有限公司 24238

-
北京密安网络技术股份有限公司 21240

-
HKSME 24304

-
百奥泰国际会议(大连)有限公司 21180

-
上海交通大学 18385

-
重庆师范大学 18520

-
国营企业单位 18329

-
中国石油化工股份有限公司安全工程 23332

-
国际工学技术出版协会 23470

-
京机北械工程学院 18253

-
昆明市前沿信息研究中心 8181

















692













































