World-to-Words: Grounded Open Vocabulary Acquisition through Fast Mapping in Vision-Language Models


言語単位を物理世界の指示対象に接続する能力 (グラウンディングと呼ばれます) は、単語の根拠のある意味を学習し理解するために重要です。
この目的を達成するために、オープンワールド言語学習におけるグラウンディングとブートストラップを検討するために、グラウンデッド オープンボキャブラリー獲得 (GOVA) を導入します。
最初の試みとして、我々はオブジェクト指向 BERT (OctoBERT) を提案します。これは、目的としてグラウンディングを強調する画像とテキストのペアで事前トレーニングすることにより、新しい視覚的にグラウンディングされた言語モデルです。
広範な実験と分析を通じて、OctoBERT がより一貫性があり、素早い根拠に基づいた単語学習器であること、また、事前トレーニング中に獲得した基礎能力が、モデルが目に見えない単語をより迅速かつ確実に学習するのに役立つことを実証しました。
私たちのコードは で入手できます。


The ability to connect language units to their referents in the physical world, referred to as grounding, is crucial to learning and understanding grounded meanings of words. While humans demonstrate fast mapping in new word learning, it remains unclear whether modern vision-language models can truly represent language with their grounded meanings and how grounding may further bootstrap new word learning. To this end, we introduce Grounded Open Vocabulary Acquisition (GOVA) to examine grounding and bootstrapping in open-world language learning. As an initial attempt, we propose object-oriented BERT (OctoBERT), a novel visually-grounded language model by pre-training on image-text pairs highlighting grounding as an objective. Through extensive experiments and analysis, we demonstrate that OctoBERT is a more coherent and fast grounded word learner, and that the grounding ability acquired during pre-training helps the model to learn unseen words more rapidly and robustly. Our code is available at


著者 Ziqiao Ma,Jiayi Pan,Joyce Chai
発行日 2024-12-26 19:50:42+00:00
カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク