要約
このペーパーの目的は、テキストから画像の検索のパフォーマンスを改善することです。
この目的のために、テキストからイメージへの再ランキングに使用できるように、大規模な事前訓練を受けたビジョン言語モデルのパフォーマンスを高めることができる新しいフレームワークを紹介します。
言語イメージの強化されたプリトレーニング(ELIP)は、単純なMLPマッピングネットワークを介してテキストクエリを使用して、VIT画像エンコーディングを条件付ける視覚プロンプトのセットを予測します。
ELIPは、一般的に使用されるクリップ、Siglip、Blip-2ネットワークに簡単に適用できます。
限られたコンピューティングリソースでアーキテクチャをトレーニングするために、グローバルなハードサンプルマイニングと大規模なデータセットのキュレーションを含む「学生に優しい」ベストプラクティスを開発します。
評価側では、2つの新しい分布(OOD)ベンチマーク、オクルドココとイメージェネットRを設定して、モデルの異なるドメインへのゼロショット一般化を評価します。
結果は、ELIPがClip/Siglip/Siglip-2テキストからイメージからイメージの検索パフォーマンスを大幅に向上させ、いくつかのベンチマークでBLIP-2を上回ることを示しており、OODデータセットに適応する簡単な手段を提供します。
要約(オリジナル)
The objective in this paper is to improve the performance of text-to-image retrieval. To this end, we introduce a new framework that can boost the performance of large-scale pre-trained vision-language models, so that they can be used for text-to-image re-ranking. The approach, Enhanced Language-Image Pre-training (ELIP), uses the text query, via a simple MLP mapping network, to predict a set of visual prompts to condition the ViT image encoding. ELIP can easily be applied to the commonly used CLIP, SigLIP and BLIP-2 networks. To train the architecture with limited computing resources, we develop a ‘student friendly’ best practice, involving global hard sample mining, and curation of a large-scale dataset. On the evaluation side, we set up two new out-of-distribution (OOD) benchmarks, Occluded COCO and ImageNet-R, to assess the zero-shot generalisation of the models to different domains. The results demonstrate that ELIP significantly boosts CLIP/SigLIP/SigLIP-2 text-to-image retrieval performance and outperforms BLIP-2 on several benchmarks, as well as providing an easy means to adapt to OOD datasets.
arxiv情報
著者 | Guanqi Zhan,Yuanpei Liu,Kai Han,Weidi Xie,Andrew Zisserman |
発行日 | 2025-03-27 17:57:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google