CLIP-RR: Improved CLIP Network for Relation-Focused Cross-Modal Information Retrieval

要約

関係に焦点を当てたクロスモーダル情報検索は、ユーザーのクエリで表現された関係に基づいて情報を取得することに重点を置いており、情報検索アプリケーションや次世代検索エンジンでは特に重要です。
今日まで、CLIP (Contrastive Language-Image Pre-training) は、自然言語の監督から視覚的概念を効率的に学習することにより、クロスモーダル学習タスクで最先端のパフォーマンスを達成しました。
ただし、CLIP は、画像とオブジェクトの関係に焦点を当てる機能がなくても、グローバル レベルで自然言語から視覚的表現を学習します。
この論文では、関係に焦点を当てたクロスモーダル情報検索に取り組む、関係推論用の新しい CLIP ベースのネットワーク、CLIP-RR を提案します。
提案されたネットワークは、事前に訓練された知識を活用するために CLIP を利用し、さらに 2 つの主要な部分で構成されています。
(2) 画像と説明の間の類似性スコアを予測するための推論結果を集計します。
提案されたネットワークを、RefCOCOg、CLEVR、および Flickr30K データセットの関係に焦点を当てたクロスモーダル情報検索タスクに適用することによって、実験が行われました。
結果は、提案されたネットワークが、画像からテキストへ、およびテキストから画像へのクロスモーダル情報検索タスクの両方で、CLIP、VSE$\infty$、および VSRN++ を含む他のさまざまな最先端のネットワークよりも優れていることを明らかにしました。

要約(オリジナル)

Relation-focused cross-modal information retrieval focuses on retrieving information based on relations expressed in user queries, and it is particularly important in information retrieval applications and next-generation search engines. To date, CLIP (Contrastive Language-Image Pre-training) achieved state-of-the-art performance in cross-modal learning tasks due to its efficient learning of visual concepts from natural language supervision. However, CLIP learns visual representations from natural language at a global level without the capability of focusing on image-object relations. This paper proposes a novel CLIP-based network for Relation Reasoning, CLIP-RR, that tackles relation-focused cross-modal information retrieval. The proposed network utilises CLIP to leverage its pre-trained knowledge, and it additionally comprises two main parts: (1) extends the capabilities of CLIP to extract and reason with object relations in images; and (2) aggregates the reasoned results for predicting the similarity scores between images and descriptions. Experiments were carried out by applying the proposed network to relation-focused cross-modal information retrieval tasks on the RefCOCOg, CLEVR, and Flickr30K datasets. The results revealed that the proposed network outperformed various other state-of-the-art networks including CLIP, VSE$\infty$, and VSRN++ on both image-to-text and text-to-image cross-modal information retrieval tasks.

arxiv情報

著者 Yan Gong,Georgina Cosma
発行日 2023-02-13 13:34:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク