人工智能研究院朱毅鑫助理教授及合作者在支持机器进行词汇学习和更广泛的人类学习工作中取得进展_科研信息_学术资讯

当前位置：首页 >> 学术资讯 >> 科研信息

2026年传感器技术、自动化与智能制造国际会议（STAIM 2026）

第十一届材料科学与工程国际学术会议(ISAMSE 2026）

第二届导航、检测与控制国际学术会议（CNDC 2026)

第三届图像处理、多媒体技术与机器学习国际学术会议（IPMML 2026）

2026年智能医学与图像计算国际会议 (IMIC 2026)

第三届虚拟现实、图像和信号处理国际学术会议（VRISP 2026）

2026年具身智能、机器人与控制系统国际学术会议（EIRCS 2026）

第五届信息经济、数据建模与云计算国际学术会议（ICIDC 2026）

第三届数字媒体、通信与信息系统国际学术会议（DMCIS 2026）

2026年智能机器人与控制技术国际会议（CIRCT 2026）

第五届机械电子工程与人工智能国际学术会议（MEAI 2026）

第六届先进制造技术与电子信息国际学术会议（AMTEI 2026）

第十一届计算机与信息处理技术国际学术研讨会（ISCIPT 2026）

第三届大数据、神经网络与深度学习研讨会（BDNNDL 2026）

第六届计算机视觉、应用与算法国际学术会议（CVAA 2026）

2026年IEEE计算机通信、信息系统与网络安全国际会议(CCISC 2026)

2026年第五届算法、数据挖掘和信息技术国际会议(ADMIT 2026)

2026年人工智能与机器人系统国际会议(ICAIRS 2026)

2026年IEEE人工智能、大数据与云计算国际会议 (AIBDCC 2026)

2026年IEEE第二届电力与可持续能源技术国际会议(PSETC 2026)

人工智能研究院朱毅鑫助理教授及合作者在支持机器进行词汇学习和更广泛的人类学习工作中取得进展

2023/12/05

近日，北京大学人工智能研究院朱毅鑫助理教授及合作者在ICML 2023发表题为“MEWL：Few-shot multimodal word learning with referential uncertainty”的研究论文。该研究通过在机器中设计词汇学习任务来评估机器在与人类相同的条件下学习词汇的能力。MEWL简单直观，支持词汇学习和更广泛的人类学习中的这些基本元素。

学习单词和语言是人类认知发展中最基本的阶段之一，它为后续的其他关键能力奠定了基础。了解人类学习词汇的模式对构建能够像人类一样学习和推理的机器至关重要。尽管机器的语言训练研究已经取得一定进展，模型是否以类人的方式获取词义还未可知。从人类的单词学习方法中汲取灵感，研究团队构建了MEWL（MachinE Word Learning），来评估机器如何在视觉场景中学习单词和概念。为了全面评估人类和机器之间的对齐，研究团队为MEWL设计了9种任务，涵盖了交叉情境学习、引导学习和语用单词学等各种单词学习方法：形状（shape）、颜色（color）、材料（material）、物体（object）、复合（composite）、关系（relation）、自举（bootstrap）、数字（number）和语用（pragmatic）。

为了探索人类的单词学习模式在人工智能模型的中的表现，研究团队在将MEWL表达为一个少样本的视觉-语言学习问题的前提下，选择了两大类模型：多模态（视觉-语言）和单模态（纯语言）模型；同时，评估人类被试，以提供人类平均水平的对照。对于多模态模型，选取CLIP、Flamingo-1.1B和Aloe；对于纯语言模型，选取GPT-3.5和BERT。首先，使用特定任务的先知（Oracle）标注器来解析输入的视觉场景，生成一个场景描述。接下来，研究团队使用语言模型将结果分类为多项选择问题。值得注意的是，这些标注被注入了精确需要解决这些任务的归纳偏置（inductive biases），比在多模态模型中使用的图像具有更少的不确定性和模糊性。这种设计大大简化了任务难度，因为对单模态模型来说，将标注中的句法模式映射到答案更容易。

基准模型和人类在MEWL上的表现

数据显示，最好的视觉-语言模型是Flamingo-1.1B（41.0%），只有人类（73.2%）能力的大约一半。与此同时，带有CLIP特征的普通Transformer模型在所有任务上的表现只能达到随机水平（不到20%）。Aloe的以物体为中心（object-centric）的表示有助于提高性能至26.8%，但由于模型容量有限和缺乏预训练，可能会表现得更差。深入观察和分析研究结果可以发现，视觉-语言预训练模型在基本属性命名任务（即形状、颜色、材料）上表现相对良好，但无法推广到对象关系和利用语用线索进行推理。一个有趣的观察是，Flamingo模型可以解决一小部分自举任务和一些数字任务。这个结果可能归因于Flamingo模型基于语言模型，捕获句法线索并理解熟悉的词以自举单词学习。

对于单模态语言模型，微调后的BERT具有最佳的整体性能，平均性能为68.3%。BERT和GPT-3.5在对象级任务（即形状、颜色、材料、对象、复合、自举）上都表现出色，但在需要理解超越一对一映射的更复杂关系的任务上失败（即关系、数字）。在训练集上进行微调，BERT模型在实用任务上也表现良好，而GPT-3.5（未经微调）则失败，表明某些能力确实可以通过任务特定的微调来学习。带有真实文本标注（caption）的基于文本的模型通常优于基于视觉输入的模型，这一结果与人类多模态学习的经验观察和计算研究形成对比，后者认为多模态可以提升词汇和概念的获取。

为什么在少样本单词学习中，单模态模型优于多模态模型呢？

首先，单模态语言模型中的部分概念，而不是全部，可能以与人类不同的方式获取。GPT-3.5成功地在一些基本属性命名任务（即颜色、材料、形状、对象和复合）上取得了可比的性能，但却未能学习复杂的关系词（即数字、关系），表明它已经从单模态训练中获取了一些关于形状、颜色和材料的概念知识，却未能通过语用线索进行学习。其次，MEWL的单模态版本类似于一个文本翻译问题。由于我们使用专门为每个任务设计的真实文本标注（caption），单模态语言模型不需要像人类通过概念归纳（concept induction）进行原版的单词学习。相反，他们通过从熟悉的英语词汇进行少样本翻译来获取新词的含义，大大降低了多模态单词学习的难度和模糊性。最后，基于217个有效的人类回答样本，MEWL反映了人类用于单词学习的核心认知技能，为MEWL上应展示的人类级单词学习提供了重要参考。

虽然人类的单词学习模式是否应该是多模态AI的一种路径仍然是一个争论的问题，但它是人类-AI对齐的基本能力。人类使用交叉情境信息来支持少次学习的词汇和概念，而目前的机器模型却在此遭遇困难；人类通过教学和社会语用线索学习，而人工智能目前无法理解。在弥合这个差距之前，如何评估机器在与人类相同的条件下学习词汇的能力呢？研究团队利用简单直观的MEWL，通过在机器中设计单词学习任务，迈出了探索的第一步。

北京大学通用人工智能实验班2020级学生姜广源为本文第一作者，姜广源、朱毅鑫、北京通用人工智能研究院张驰研究员为本文共同通讯作者，合作作者还有北京通用人工智能研究院徐满杰研究员、辛世计研究员、北京理工大学梁玮教授、北京大学心理与认知科学学院彭玉佳助理教授。

版权声明：
文章来源北京大学新闻网，分享只为学术交流，如涉及侵权问题请联系我们，我们将及时修改或删除。

化学学院雷晓光团队与合作者阐明离子通道蛋白TRPV4小分子抑制剂的结构药理学基础

昆虫滞育研究取得重要进展

清华大学地学系李伟课题组揭示全球生物能源作物种植引起的陆地降水改变

西湖大学生命科学学院陶亮团队与施一公团队合作在艰难梭菌感染的致病机制研究方面取得进展

《物理评论X》发表李源、彭莹莹课题组与合作者对Kitaev模型候选材料钠钴锑氧的研究

中国海洋大学Nature刊发中国海洋大学在大气化学与气候变化研究领域取得的最新成果

中山大学段晶晶课题组揭示单细胞水平新机制

我国学者在肝癌肿瘤微环境研究方面取得进展

北京大学肿瘤医院分子影像临床转化平台建设取得系列突出成绩

近期会议