Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval

要約

合成画像取得 (CIR) は、画像とその画像に対する必要な変更を説明するキャプションで構成されるクエリを使用して画像を取得する複雑なタスクです。
教師あり CIR アプローチは優れたパフォーマンスを示していますが、手動で注釈が付けられた高価なデータセットに依存しているため、拡張性と幅広い適用性が制限されています。
これらの問題に対処するために、これまでの研究では、投影モジュールを利用して画像を単語トークンにマッピングする擬似単語トークンベースのゼロショット CIR (ZS-CIR) 手法が提案されてきました。
ただし、このアプローチには欠点があると推測されます。投影モジュールは元の画像表現を歪め、結果として合成された埋め込みをテキスト側に限定します。
これを解決するために、球面線形補間 (Slerp) を使用して、画像表現とテキスト表現の中間埋め込みを識別することで画像表現とテキスト表現を直接マージする新しい ZS-CIR メソッドを導入します。
さらに、テキスト エンコーダーを固定したまま画像エンコーダーを微調整する方法である Text-Anchored-Tuning (TAT) を紹介します。
TAT は画像とテキストの間のモダリティのギャップを埋め、Slerp プロセスをより効率的にします。
特に、TAT 手法はトレーニング データセットの規模とトレーニング時間の点で効率的であるだけでなく、教師あり CIR モデルをトレーニングするための優れた初期チェックポイントとしても機能するため、その幅広い可能性が強調されます。
Slerp ベースの ZS-CIR と TAT 調整モデルの統合により、CIR ベンチマーク全体で最先端の検索パフォーマンスを提供するアプローチが可能になります。

要約(オリジナル)

Composed Image Retrieval (CIR) is a complex task that retrieves images using a query, which is configured with an image and a caption that describes desired modifications to that image. Supervised CIR approaches have shown strong performance, but their reliance on expensive manually-annotated datasets restricts their scalability and broader applicability. To address these issues, previous studies have proposed pseudo-word token-based Zero-Shot CIR (ZS-CIR) methods, which utilize a projection module to map images to word tokens. However, we conjecture that this approach has a downside: the projection module distorts the original image representation and confines the resulting composed embeddings to the text-side. In order to resolve this, we introduce a novel ZS-CIR method that uses Spherical Linear Interpolation (Slerp) to directly merge image and text representations by identifying an intermediate embedding of both. Furthermore, we introduce Text-Anchored-Tuning (TAT), a method that fine-tunes the image encoder while keeping the text encoder fixed. TAT closes the modality gap between images and text, making the Slerp process much more effective. Notably, the TAT method is not only efficient in terms of the scale of the training dataset and training time, but it also serves as an excellent initial checkpoint for training supervised CIR models, thereby highlighting its wider potential. The integration of the Slerp-based ZS-CIR with a TAT-tuned model enables our approach to deliver state-of-the-art retrieval performance across CIR benchmarks.

arxiv情報

著者 Young Kyun Jang,Dat Huynh,Ashish Shah,Wen-Kai Chen,Ser-Nam Lim
発行日 2024-05-01 15:19:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク