VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval

要約

【タイトル】
クロスモーダル情報検索のための関係にフォーカスした学習をビジョン・トランスフォーマーで拡張する(VITR)

【要約】
・関係にフォーカスしたクロスモーダル情報検索は、ユーザーのクエリで表現された関係を基に情報を取得するものであり、情報検索アプリケーションや次世代の検索エンジンで特に重要である。
・コントラスト言語-画像学習(CLIP)のような事前学習ネットワークは、クロスモーダル学習タスクで最先端の成績を収めているが、これらのネットワークで使用されるビジョントランスフォーマー(ViT)は、画像領域の関係に注目する能力に限界がある。
・具体的には、ViTは画像領域と説明文の対応関係を考慮せずにグローバルレベルで関連する説明文を画像にマッチングするように訓練されている。
・本論文は、VITRという新しいネットワークを紹介し、これにより接地部エンコーダに基づいて画像領域の関係を抽出して推論することでViTを強化する。VITRは2つの主要な構成要素から成り立ち、ViTベースのクロスモーダルネットワークの機能を拡張し、画像内の領域関係を抽出して推論することと、推論結果をグローバルな知識と集積して画像と説明文の類似度スコアを予測することです。
・提案されたネットワークをFlickr30K、RefCOCOg、およびCLEVRデータセットの関係に焦点を当てたクロスモーダル情報検索タスクに適用して実験を実施しました。
・その結果、提案されたVITRネットワークは、画像-テキストおよびテキスト-画像のクロスモーダル情報検索タスクにおいて、CLIP、VSE∞、VSRN++を含む他のさまざまな最先端のネットワークを凌駕する性能を発揮しました。

要約(オリジナル)

Relation-focused cross-modal information retrieval focuses on retrieving information based on relations expressed in user queries, and it is particularly important in information retrieval applications and next-generation search engines. While pre-trained networks like Contrastive Language-Image Pre-training (CLIP) have achieved state-of-the-art performance in cross-modal learning tasks, the Vision Transformer (ViT) used in these networks is limited in its ability to focus on image region relations. Specifically, ViT is trained to match images with relevant descriptions at the global level, without considering the alignment between image regions and descriptions. This paper introduces VITR, a novel network that enhances ViT by extracting and reasoning about image region relations based on a Local encoder. VITR comprises two main components: (1) extending the capabilities of ViT-based cross-modal networks to extract and reason with region relations in images; and (2) aggregating the reasoned results with the global knowledge to predict the similarity scores between images and descriptions. Experiments were carried out by applying the proposed network to relation-focused cross-modal information retrieval tasks on the Flickr30K, RefCOCOg, and CLEVR datasets. The results revealed that the proposed VITR network outperformed various other state-of-the-art networks including CLIP, VSE$\infty$, and VSRN++ on both image-to-text and text-to-image cross-modal information retrieval tasks.

arxiv情報

著者 Yan Gong,Georgina Cosma
発行日 2023-04-24 15:36:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク