Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening

要約

現在の画像とテキストの検索方法は、パフォーマンスの向上に伴い、$N$ に関連する時間の複雑さに悩まされており、実際のアプリケーションを妨げています。
効率の向上を目指して、この論文では、画像テキスト検索のためのシンプルで効果的なキーワードガイド付き事前スクリーニングフレームワークを提示します。
具体的には、画像とテキスト データをキーワードに変換し、モダリティ間でキーワード マッチングを実行して、検索ネットワークの前に多数の無関係なギャラリー サンプルを除外します。
キーワード予測については、それをマルチラベル分類問題に変換し、マルチラベル分類子を画像テキスト検索ネットワークに追加して軽量で高性能なキーワード予測を実現するマルチタスク学習スキームを提案します。
キーワード マッチングでは、検索エンジンに転置インデックスを導入し、プレ スクリーニングの時間と空間の複雑さの両方で win-win の状況を作成します。
広く使用されている 2 つのデータセット、つまり Flickr30K と MS-COCO での広範な実験により、提案されたフレームワークの有効性が検証されます。
2 つの埋め込み層のみを備えた提案されたフレームワークは、一般的な画像テキスト検索方法の前に適用された場合、検索効率を改善し、そのパフォーマンスを維持しながら、$O(1)$ クエリ時間の複雑さを達成します。
私たちのコードがリリースされます。

要約(オリジナル)

Under the flourishing development in performance, current image-text retrieval methods suffer from $N$-related time complexity, which hinders their application in practice. Targeting at efficiency improvement, this paper presents a simple and effective keyword-guided pre-screening framework for the image-text retrieval. Specifically, we convert the image and text data into the keywords and perform the keyword matching across modalities to exclude a large number of irrelevant gallery samples prior to the retrieval network. For the keyword prediction, we transfer it into a multi-label classification problem and propose a multi-task learning scheme by appending the multi-label classifiers to the image-text retrieval network to achieve a lightweight and high-performance keyword prediction. For the keyword matching, we introduce the inverted index in the search engine and create a win-win situation on both time and space complexities for the pre-screening. Extensive experiments on two widely-used datasets, i.e., Flickr30K and MS-COCO, verify the effectiveness of the proposed framework. The proposed framework equipped with only two embedding layers achieves $O(1)$ querying time complexity, while improving the retrieval efficiency and keeping its performance, when applied prior to the common image-text retrieval methods. Our code will be released.

arxiv情報

著者 Min Cao,Yang Bai,Jingyao Wang,Ziqiang Cao,Liqiang Nie,Min Zhang
発行日 2023-03-14 09:36:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク