Candidate Set Re-ranking for Composed Image Retrieval with Dual Multi-modal Encoder

要約

合成画像の検索は、参照画像とテキストのペアで構成される特定のマルチモーダル ユーザー クエリに最もよく一致する画像を見つけることを目的としています。
既存の方法は一般に、コーパス全体にわたって画像埋め込みを事前計算し、テスト時にクエリ テキストによって変更された参照画像埋め込みと比較します。
このようなパイプラインは、高速ベクトル距離を使用して候補を評価できるため、テスト時には非常に効率的ですが、短いテキストの説明のみに基づいて参照画像の埋め込みを変更することは、特に潜在的な候補とは無関係に困難になる可能性があります。
別のアプローチは、クエリとすべての可能な候補 (つまり、参照テキスト候補のトリプレット) の間の対話を許可し、セット全体から最良のものを選択することです。
このアプローチはより識別的ですが、大規模なデータセットの場合、埋め込み候補の事前計算が不可能になるため、計算コストが法外に高くなります。
2 段階モデル​​を使用して、両方のスキームの長所を組み合わせることを提案します。
最初の段階では、従来のベクトル距離測定基準を採用し、候補間で高速な枝刈りを実行します。
一方、第 2 段階ではデュアル エンコーダ アーキテクチャを採用しており、参照テキスト候補の入力トリプレットに効果的に注目し、候補を再ランク付けします。
どちらの段階でも、視覚と言語の事前トレーニング済みネットワークを利用しており、これはさまざまな下流タスクに有益であることが証明されています。
私たちの手法は、このタスクの標準ベンチマークにおいて、常に最先端のアプローチを上回っています。

要約(オリジナル)

Composed image retrieval aims to find an image that best matches a given multi-modal user query consisting of a reference image and text pair. Existing methods commonly pre-compute image embeddings over the entire corpus and compare these to a reference image embedding modified by the query text at test time. Such a pipeline is very efficient at test time since fast vector distances can be used to evaluate candidates, but modifying the reference image embedding guided only by a short textual description can be difficult, especially independent of potential candidates. An alternative approach is to allow interactions between the query and every possible candidate, i.e., reference-text-candidate triplets, and pick the best from the entire set. Though this approach is more discriminative, for large-scale datasets the computational cost is prohibitive since pre-computation of candidate embeddings is no longer possible. We propose to combine the merits of both schemes using a two-stage model. Our first stage adopts the conventional vector distancing metric and performs a fast pruning among candidates. Meanwhile, our second stage employs a dual-encoder architecture, which effectively attends to the input triplet of reference-text-candidate and re-ranks the candidates. Both stages utilize a vision-and-language pre-trained network, which has proven beneficial for various downstream tasks. Our method consistently outperforms state-of-the-art approaches on standard benchmarks for the task.

arxiv情報

著者 Zheyuan Liu,Weixuan Sun,Damien Teney,Stephen Gould
発行日 2023-05-25 17:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, cs.LG パーマリンク