Vision-by-Language for Training-Free Compositional Image Retrieval

要約

画像とターゲットの変更 (例: エッフェル塔の画像と「人がいない、夜間」というテキスト) が与えられた場合、合成画像検索 (CIR) は、データベース内の関連するターゲット画像を検索することを目的としています。
教師ありアプローチは、コストのかかるトリプレット (つまり、クエリ画像、テキスト変更、ターゲット画像) に注釈を付けることに依存していますが、最近の研究では、大規模ビジョン言語モデル (VLM) を使用し、ゼロショット CIR (ZS-CIR) を実行することで、この必要性を回避しています。
)。
ただし、ZS-CIR の最先端のアプローチでは、依然として大量の画像とテキストのペアに対してタスク固有のカスタマイズされたモデルをトレーニングする必要があります。
この研究では、大規模な VLM と大規模な言語を効果的に再結合する、シンプルでありながら人間が理解しやすくスケーラブルなパイプラインである、Vision-by-Language による複合画像検索 (CIReVL) を介して、トレーニング不要の方法で CIR に取り組むことを提案します。
モデル (LLM)。
事前にトレーニングされた生成 VLM を使用して参照画像にキャプションを付け、LLM に、テキスト ターゲットの変更に基づいてキャプションを再構成するよう依頼し、その後の取得に備えます。
CLIP では、モジュール型の言語推論を実現します。
4 つの ZS-CIR ベンチマークでは、競争力のある一部の最先端のパフォーマンスがわかり、教師あり手法よりも向上しています。
さらに、CIReVL のモジュール性により、再トレーニングを必要としないシンプルなスケーラビリティが提供され、以前に報告された結果の 2 倍を超える部分まで簡単にスケールアップしながら、ZS-CIR のスケーリング則とボトルネックの両方を調査することができます。
最後に、CIReVL が言語ドメインでモジュール形式で画像とテキストを構成することで CIR を人間が理解できるようにし、それによって介入可能にし、失敗ケースを事後的に再調整できるようにすることを示します。
コードは承認され次第リリースされます。

要約(オリジナル)

Given an image and a target modification (e.g an image of the Eiffel tower and the text ‘without people and at night-time’), Compositional Image Retrieval (CIR) aims to retrieve the relevant target image in a database. While supervised approaches rely on annotating triplets that is costly (i.e. query image, textual modification, and target image), recent research sidesteps this need by using large-scale vision-language models (VLMs), performing Zero-Shot CIR (ZS-CIR). However, state-of-the-art approaches in ZS-CIR still require training task-specific, customized models over large amounts of image-text pairs. In this work, we propose to tackle CIR in a training-free manner via our Compositional Image Retrieval through Vision-by-Language (CIReVL), a simple, yet human-understandable and scalable pipeline that effectively recombines large-scale VLMs with large language models (LLMs). By captioning the reference image using a pre-trained generative VLM and asking a LLM to recompose the caption based on the textual target modification for subsequent retrieval via e.g. CLIP, we achieve modular language reasoning. In four ZS-CIR benchmarks, we find competitive, in-part state-of-the-art performance – improving over supervised methods. Moreover, the modularity of CIReVL offers simple scalability without re-training, allowing us to both investigate scaling laws and bottlenecks for ZS-CIR while easily scaling up to in parts more than double of previously reported results. Finally, we show that CIReVL makes CIR human-understandable by composing image and text in a modular fashion in the language domain, thereby making it intervenable, allowing to post-hoc re-align failure cases. Code will be released upon acceptance.

arxiv情報

著者 Shyamgopal Karthik,Karsten Roth,Massimiliano Mancini,Zeynep Akata
発行日 2023-10-13 17:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク