要約
CLIP のようなビジョン言語モデル (VLM) は、下流のタスクに転送可能な機能を抽出する優れた機能を実証しています。
それにもかかわらず、これらのモデルのトレーニング プロセスは通常、画像とテキストの全体的な埋め込み間の粗粒度のコントラスト損失に基づいており、これらのモダリティの構成構造が失われる可能性があります。
最近の多くの研究では、VLM には属性のバインディングやオブジェクトの関係性の識別などの構成的な理解が欠けていることが示されています。
最近のいくつかの方法では、より詳細なレベルの位置合わせを実現しようとしていますが、適切な粒度で意味のあるコンポーネントを抽出することに基づいていないか、モダリティの対応を適切に利用していません (特に、より多くの成分を含む画像とテキストのペアの場合)。
これらの制限に対処するために、画像とテキストのペアの形式での弱い監視のみを使用して、テキストと画像コンポーネントのより正確な対応関係を発見するためのきめ細かいアプローチである、ComAlign (ComAlign) を導入します。
私たちの方法論では、テキスト モダリティから抽出された構成構造 (エンティティと関係を含む) が画像モダリティでも保持される必要があることを強調しています。
画像とテキストのモダリティにおけるきめの細かい概念の対応を強制するために、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダーの上にある軽量ネットワークをトレーニングします。
ネットワークは、モダリティ全体で構造のノードとエッジを位置合わせするようにトレーニングされます。
さまざまな VLM およびデータセットでの実験結果は、検索および構成ベンチマークにおける大幅な改善を実証し、プラグイン モデルの有効性を裏付けています。
要約(オリジナル)
Vision-language models (VLMs) like CLIP have showcased a remarkable ability to extract transferable features for downstream tasks. Nonetheless, the training process of these models is usually based on a coarse-grained contrastive loss between the global embedding of images and texts which may lose the compositional structure of these modalities. Many recent studies have shown VLMs lack compositional understandings like attribute binding and identifying object relationships. Although some recent methods have tried to achieve finer-level alignments, they either are not based on extracting meaningful components of proper granularity or don’t properly utilize the modalities’ correspondence (especially in image-text pairs with more ingredients). Addressing these limitations, we introduce Compositional Alignment (ComAlign), a fine-grained approach to discover more exact correspondence of text and image components using only the weak supervision in the form of image-text pairs. Our methodology emphasizes that the compositional structure (including entities and relations) extracted from the text modality must also be retained in the image modality. To enforce correspondence of fine-grained concepts in image and text modalities, we train a lightweight network lying on top of existing visual and language encoders using a small dataset. The network is trained to align nodes and edges of the structure across the modalities. Experimental results on various VLMs and datasets demonstrate significant improvements in retrieval and compositional benchmarks, affirming the effectiveness of our plugin model.
arxiv情報
著者 | Ali Abdollah,Amirmohammad Izadi,Armin Saghafian,Reza Vahidimajd,Mohammad Mozafari,Amirreza Mirzaei,Mohammadmahdi Samiei,Mahdieh Soleymani Baghshah |
発行日 | 2024-09-12 16:46:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google