Learning Visual Representations via Language-Guided Sampling

要約

オブジェクトは多くのコンテキストで表示される可能性がありますが、多くの場合、限られた数の方法でオブジェクトを記述します。
これは、言語が概念を表現および伝達するために視覚的なバリエーションを抽象化するために発生します。
この直感に基づいて、視覚学習への代替アプローチを提案します。言語の類似性を使用して、意味的に類似した画像ペアを対照学習のためにサンプリングします。
私たちのアプローチは、手作りの拡張や学習したクラスターの代わりに言語を使用してペアをサンプリングすることにより、画像ベースの対照的な学習から逸脱しています。
私たちのアプローチは、クロスモーダルの類似性を最小限に抑えるのではなく、事前にトレーニングされた言語モデルに依存して学習を導くことにより、画像とテキストの対照的な学習からも逸脱しています。
一連の実験を通じて、言語誘導学習は、画像 – 画像および画像 – テキスト表現学習アプローチの両方よりも優れた機能を学習できることを示しています。

要約(オリジナル)

Although an object may appear in numerous contexts, we often describe it in a limited number of ways. This happens because language abstracts away visual variation to represent and communicate concepts. Building on this intuition, we propose an alternative approach to visual learning: using language similarity to sample semantically similar image pairs for contrastive learning. Our approach deviates from image-based contrastive learning by using language to sample pairs instead of hand-crafted augmentations or learned clusters. Our approach also deviates from image-text contrastive learning by relying on pre-trained language models to guide the learning rather than minimize a cross-modal similarity. Through a series of experiments, we show that language-guided learning can learn better features than both image-image and image-text representation learning approaches.

arxiv情報

著者 Mohamed El Banani,Karan Desai,Justin Johnson
発行日 2023-02-23 18:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク