人工智能研究院朱毅鑫助理教授及合作者在支持机器进行词汇学习和更广泛的人类学习工作中取得进展
2023/12/05
近日,北京大学人工智能研究院朱毅鑫助理教授及合作者在ICML 2023发表题为“MEWL:Few-shot multimodal word learning with referential uncertainty”的研究论文。该研究通过在机器中设计词汇学习任务来评估机器在与人类相同的条件下学习词汇的能力。MEWL简单直观,支持词汇学习和更广泛的人类学习中的这些基本元素。
学习单词和语言是人类认知发展中最基本的阶段之一,它为后续的其他关键能力奠定了基础。了解人类学习词汇的模式对构建能够像人类一样学习和推理的机器至关重要。尽管机器的语言训练研究已经取得一定进展,模型是否以类人的方式获取词义还未可知。从人类的单词学习方法中汲取灵感,研究团队构建了MEWL(MachinE Word Learning),来评估机器如何在视觉场景中学习单词和概念。为了全面评估人类和机器之间的对齐,研究团队为MEWL设计了9种任务,涵盖了交叉情境学习、引导学习和语用单词学等各种单词学习方法:形状(shape)、颜色(color)、材料(material)、物体(object)、复合(composite)、关系(relation)、自举(bootstrap)、数字(number)和语用(pragmatic)。
为了探索人类的单词学习模式在人工智能模型的中的表现,研究团队在将MEWL表达为一个少样本的视觉-语言学习问题的前提下,选择了两大类模型:多模态(视觉-语言)和单模态(纯语言)模型;同时,评估人类被试,以提供人类平均水平的对照。对于多模态模型,选取CLIP、Flamingo-1.1B和Aloe;对于纯语言模型,选取GPT-3.5和BERT。首先,使用特定任务的先知(Oracle)标注器来解析输入的视觉场景,生成一个场景描述。接下来,研究团队使用语言模型将结果分类为多项选择问题。值得注意的是,这些标注被注入了精确需要解决这些任务的归纳偏置(inductive biases),比在多模态模型中使用的图像具有更少的不确定性和模糊性。这种设计大大简化了任务难度,因为对单模态模型来说,将标注中的句法模式映射到答案更容易。


基准模型和人类在MEWL上的表现
数据显示,最好的视觉-语言模型是Flamingo-1.1B(41.0%),只有人类(73.2%)能力的大约一半。与此同时,带有CLIP特征的普通Transformer模型在所有任务上的表现只能达到随机水平(不到20%)。Aloe的以物体为中心(object-centric)的表示有助于提高性能至26.8%,但由于模型容量有限和缺乏预训练,可能会表现得更差。深入观察和分析研究结果可以发现,视觉-语言预训练模型在基本属性命名任务(即形状、颜色、材料)上表现相对良好,但无法推广到对象关系和利用语用线索进行推理。一个有趣的观察是,Flamingo模型可以解决一小部分自举任务和一些数字任务。这个结果可能归因于Flamingo模型基于语言模型,捕获句法线索并理解熟悉的词以自举单词学习。
对于单模态语言模型,微调后的BERT具有最佳的整体性能,平均性能为68.3%。BERT和GPT-3.5在对象级任务(即形状、颜色、材料、对象、复合、自举)上都表现出色,但在需要理解超越一对一映射的更复杂关系的任务上失败(即关系、数字)。在训练集上进行微调,BERT模型在实用任务上也表现良好,而GPT-3.5(未经微调)则失败,表明某些能力确实可以通过任务特定的微调来学习。带有真实文本标注(caption)的基于文本的模型通常优于基于视觉输入的模型,这一结果与人类多模态学习的经验观察和计算研究形成对比,后者认为多模态可以提升词汇和概念的获取。
为什么在少样本单词学习中,单模态模型优于多模态模型呢?
首先,单模态语言模型中的部分概念,而不是全部,可能以与人类不同的方式获取。GPT-3.5成功地在一些基本属性命名任务(即颜色、材料、形状、对象和复合)上取得了可比的性能,但却未能学习复杂的关系词(即数字、关系),表明它已经从单模态训练中获取了一些关于形状、颜色和材料的概念知识,却未能通过语用线索进行学习。其次,MEWL的单模态版本类似于一个文本翻译问题。由于我们使用专门为每个任务设计的真实文本标注(caption),单模态语言模型不需要像人类通过概念归纳(concept induction)进行原版的单词学习。相反,他们通过从熟悉的英语词汇进行少样本翻译来获取新词的含义,大大降低了多模态单词学习的难度和模糊性。最后,基于217个有效的人类回答样本,MEWL反映了人类用于单词学习的核心认知技能,为MEWL上应展示的人类级单词学习提供了重要参考。
虽然人类的单词学习模式是否应该是多模态AI的一种路径仍然是一个争论的问题,但它是人类-AI对齐的基本能力。人类使用交叉情境信息来支持少次学习的词汇和概念,而目前的机器模型却在此遭遇困难;人类通过教学和社会语用线索学习,而人工智能目前无法理解。在弥合这个差距之前,如何评估机器在与人类相同的条件下学习词汇的能力呢?研究团队利用简单直观的MEWL,通过在机器中设计单词学习任务,迈出了探索的第一步。
北京大学通用人工智能实验班2020级学生姜广源为本文第一作者,姜广源、朱毅鑫、北京通用人工智能研究院张驰研究员为本文共同通讯作者,合作作者还有北京通用人工智能研究院徐满杰研究员、辛世计研究员、北京理工大学梁玮教授、北京大学心理与认知科学学院彭玉佳助理教授。
文章来源北京大学新闻网,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年1月高含金量国际学术会议合 12-12
-
第四届金融科技与商业分析国际学术会议 686
-
2026年第十一届复合材料与材料工程 1453
-
2025年机器视觉、智能成像与模式识 2126
-
2025年智能光子学与应用技术国际学 3284
-
2026年机械工程,新能源与电气技术 3476
-
2025年计算机科学、图像分析与信号 3917
-
2025年材料化学与燃料电池技术国际 3633
-
2026年交通数字化、人工智能与韧性 12-19
-
2026年社会文化与公共管理国际会议 12-19
-
2026年人文地理与语言研究国际会议 12-19
-
2026年社会发展与经济发展国际会议 12-19
-
2026年光伏材料、光电转换与可再生 12-19
-
2026年可持续发展与数字化社会国际 12-19
-
2026年管理科学、语言与教育国际会 12-19
-
2025年两院院士增选有效候选人2672
-
2025最新JCR分区及影响因子7552
-
好学术:科研网址导航|学术头条分3540
-
2025年国际期刊预警名单发布!3510
-
2025年中科院期刊分区表重磅发13412
-
中国科协《重要学术会议目录(207866
-
吉林大学校长张希:学术会议中的提4517
-
中国科大提出电化学一体化驱动策12-19
-
中国科大实现电泵浦片上集成高亮度12-19
-
西北农林科技大学【陕西新闻联播】12-19
-
中国科大实现片上非相干泵浦高品质12-19
-
中国科大中性原子量子计算研究成果12-19
-
炔烃远端C-O键的不对称活化转化12-19
-
研究揭示叶片内生真菌分子功能多样12-19
-
科研人员提出柑橘黄龙病防控新策略12-19
-
四川现代医院 2205

-
中国能源学会 21125

-
中国骨质疏松杂志社 20995

-
International As 8179

-
北京国际科技 18073

-
兰州大学信息科学与工程学院 21279

-
四川大学 21239

-
北京好时旅行社会议部 20999

-
中国人民解放军总医院 18046

-
湖北新文盛会务有限公司 23186

-
中国高科技产业化研究会科技成果转 8440

-
温州医学院附属第二医院 23338

-
上海蔚有文化传媒有限公司 8670

-
鼎业有限公司 21120

-
美国科研出版社 2195

-
北京大学政治发展与政府管理研究中 23137

-
安徽省合肥市中国科学技术大学自动 23174

-
生物谷 21174

-
湖北第二师范学院 21114

-
中国卫视传媒国际会展旅游 23022

















641









































