ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval

要約

このペーパーの目的は、テキストから画像の検索のパフォーマンスを改善することです。
この目的のために、テキストからイメージへの再ランキングに使用できるように、大規模な事前訓練を受けたビジョン言語モデルのパフォーマンスを高めることができる新しいフレームワークを紹介します。
このアプローチである言語イメージの拡張前トレーニング(ELIP)は、テキストクエリを使用して、視覚プロンプトのセットを予測してVIT画像エンコードを条件付けます。
ELIPは、一般的に使用されるClip/Siglipおよび最先端のBlip-2アーキテクチャに簡単に適用できます。
限られたコンピューティングリソースでアーキテクチャをトレーニングするために、グローバルなハードサンプルマイニング、および大規模なデータセットの選択とキュレーションを含む「学生に優しい」ベストプラクティスを開発します。
評価面では、2つの新しい分散式ベンチマークであるオクルドココとイメージネットRを設定して、モデルの異なるドメインへのゼロショット一般化を評価しました。
新しいアーキテクチャとデータキュレーションの恩恵を受けると、実験は、強化されたネットワークがクリップ/シグリップのパフォーマンスを大幅に向上させ、テキストから画像の検索に関する最先端のBLIP-2モデルを上回ることを示しています。

要約(オリジナル)

The objective in this paper is to improve the performance of text-to-image retrieval. To this end, we introduce a new framework that can boost the performance of large-scale pre-trained vision-language models, so that they can be used for text-to-image re-ranking. The approach, Enhanced Language-Image Pre-training (ELIP), uses the text query to predict a set of visual prompts to condition the ViT image encoding. ELIP can easily be applied to the commonly used CLIP/SigLIP and the state-of-the-art BLIP-2 architectures. To train the architecture with limited computing resources, we develop a ‘student friendly’ best practice involving global hard sample mining, and selection and curation of a large-scale dataset. On the evaluation side, we set up two new out-of-distribution benchmarks, Occluded COCO and ImageNet-R, to assess the zero-shot generalisation of the models to different domains. Benefiting from the novel architecture and data curation, experiments show our enhanced network significantly boosts CLIP/SigLIP performance and outperforms the state-of-the-art BLIP-2 model on text-to-image retrieval.

arxiv情報

著者 Guanqi Zhan,Yuanpei Liu,Kai Han,Weidi Xie,Andrew Zisserman
発行日 2025-02-21 18:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク