Visually grounded few-shot word acquisition with fewer shots

要約

わずか数個の単語と画像の例のペアから新しい単語とその視覚的描写を取得する、視覚的に根拠のある音声モデルを提案します。
一連のテスト画像と音声クエリが与えられた場合、どの画像がクエリ単語を表しているかをモデルに尋ねます。
これまでの研究では、数字の単語と画像のペアによる人為的な設定を使用するか、クラスごとに多数の例を使用することによって、この問題を単純化しました。
我々は、自然な単語と画像のペアを扱うことができるが、例が少ない、つまりショットが少ないアプローチを提案します。
私たちのアプローチには、指定された単語と画像の例のペアを使用して、ラベルのない音声と画像の大規模なコレクションから新しい教師なしの単語と画像のトレーニング ペアをマイニングすることが含まれます。
さらに、単語から画像への注意メカニズムを使用して、単語と画像の類似性を判断します。
この新しいモデルでは、既存のどのアプローチよりも少ないショットで優れたパフォーマンスを実現します。

要約(オリジナル)

We propose a visually grounded speech model that acquires new words and their visual depictions from just a few word-image example pairs. Given a set of test images and a spoken query, we ask the model which image depicts the query word. Previous work has simplified this problem by either using an artificial setting with digit word-image pairs or by using a large number of examples per class. We propose an approach that can work on natural word-image pairs but with less examples, i.e. fewer shots. Our approach involves using the given word-image example pairs to mine new unsupervised word-image training pairs from large collections of unlabelled speech and images. Additionally, we use a word-to-image attention mechanism to determine word-image similarity. With this new model, we achieve better performance with fewer shots than any existing approach.

arxiv情報

著者 Leanne Nortje,Benjamin van Niekerk,Herman Kamper
発行日 2023-05-25 11:05:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク