Language-only Efficient Training of Zero-shot Composed Image Retrieval

要約

合成画像検索 (CIR) タスクは、画像とテキストの合成クエリを受け取り、両方の条件で相対画像を検索することを目的としています。
従来の CIR アプローチでは、クエリ画像、クエリ テキスト、ターゲット画像の 3 つから構成されるトレーニング データセットが必要であり、収集に非常にコストがかかります。
最近のいくつかの研究では、事前に収集されたトリプレットを使用せずに問題に取り組むゼロショット (ZS) CIR パラダイムに取り組んでいます。
ただし、既存の ZS-CIR 手法では、トレーニング中の入力テキストの多様性が欠如しているため、バックボーンのスケーラビリティと一般化性が制限されています。
私たちは、トレーニングに言語のみを使用する、新しい CIR フレームワークを提案します。
私たちの LinCIR (CIR の言語のみのトレーニング) は、自己マスキング投影 (SMP) と呼ばれる新しい自己監視によってテキスト データセットのみを使用してトレーニングできます。
テキスト潜在埋め込みをトークン埋め込み空間に射影し、元のテキストのキーワードトークンを置き換えることによって新しいテキストを構築します。
次に、新しいテキストと元のテキストに同じ潜在埋め込みベクトルを持たせます。
この単純な戦略により、LinCIR は驚くほど効率的で非常に効果的です。
CLIP ViT-G バックボーンを備えた LinCIR は 48 分でトレーニングされ、CIRCO、GeneCIS、FashionIQ、CIRR の 4 つの異なる CIR ベンチマークで最高の ZS-CIR パフォーマンスを示し、FashionIQ での教師あり手法をも上回っています。
コードは https://github.com/navervision/lincir で入手できます。

要約(オリジナル)

Composed image retrieval (CIR) task takes a composed query of image and text, aiming to search relative images for both conditions. Conventional CIR approaches need a training dataset composed of triplets of query image, query text, and target image, which is very expensive to collect. Several recent works have worked on the zero-shot (ZS) CIR paradigm to tackle the issue without using pre-collected triplets. However, the existing ZS-CIR methods show limited backbone scalability and generalizability due to the lack of diversity of the input texts during training. We propose a novel CIR framework, only using language for its training. Our LinCIR (Language-only training for CIR) can be trained only with text datasets by a novel self-supervision named self-masking projection (SMP). We project the text latent embedding to the token embedding space and construct a new text by replacing the keyword tokens of the original text. Then, we let the new and original texts have the same latent embedding vector. With this simple strategy, LinCIR is surprisingly efficient and highly effective; LinCIR with CLIP ViT-G backbone is trained in 48 minutes and shows the best ZS-CIR performances on four different CIR benchmarks, CIRCO, GeneCIS, FashionIQ, and CIRR, even outperforming supervised method on FashionIQ. Code is available at https://github.com/navervision/lincir

arxiv情報

著者 Geonmo Gu,Sanghyuk Chun,Wonjae Kim,Yoohoon Kang,Sangdoo Yun
発行日 2024-03-31 22:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR パーマリンク