Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval

要約

合成画像取得 (CIR) は、提供されたテキストの変更に基づいて、クエリに似た画像を取得するタスクです。
現在の技術は、参照画像、テキスト、ターゲット画像のラベル付きトリプレットを使用した CIR モデルの教師あり学習に依存しています。
これらの特定のトリプレットは、単純な画像とテキストのペアほど一般的には利用できないため、CIR の広範な使用とそのスケーラビリティが制限されます。
一方、ゼロショット CIR は、画像間の関係を考慮せずに画像とキャプションのペアを使用して比較的簡単にトレーニングできますが、このアプローチでは精度が低くなる傾向があります。
私たちは、補助データ内の参照とそれに関連するターゲット画像を検索し、大規模言語モデルベースのビジュアル デルタ ジェネレーター (VDG) を学習して、視覚的な違い (つまり、ビジュアル デルタ) を説明するテキストを生成する、新しい半教師あり CIR アプローチを提案します。
ふたつの間に。
VDG は流暢な言語知識を備え、モデルに依存しないため、疑似トリプレットを生成して CIR モデルのパフォーマンスを向上させることができます。
私たちのアプローチは、既存の教師あり学習アプローチを大幅に改善し、CIR ベンチマークで最先端の結果を達成します。

要約(オリジナル)

Composed Image Retrieval (CIR) is a task that retrieves images similar to a query, based on a provided textual modification. Current techniques rely on supervised learning for CIR models using labeled triplets of the reference image, text, target image. These specific triplets are not as commonly available as simple image-text pairs, limiting the widespread use of CIR and its scalability. On the other hand, zero-shot CIR can be relatively easily trained with image-caption pairs without considering the image-to-image relation, but this approach tends to yield lower accuracy. We propose a new semi-supervised CIR approach where we search for a reference and its related target images in auxiliary data and learn our large language model-based Visual Delta Generator (VDG) to generate text describing the visual difference (i.e., visual delta) between the two. VDG, equipped with fluent language knowledge and being model agnostic, can generate pseudo triplets to boost the performance of CIR models. Our approach significantly improves the existing supervised learning approaches and achieves state-of-the-art results on the CIR benchmarks.

arxiv情報

著者 Young Kyun Jang,Donghyun Kim,Zihang Meng,Dat Huynh,Ser-Nam Lim
発行日 2024-04-23 21:00:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク