Pseudo-triplet Guided Few-shot Composed Image Retrieval

要約

合成画像検索 (CIR) は、マルチモーダル クエリ (参照画像とそれに対応する変更テキスト) に基づいてターゲット画像を検索することを目的とした難しいタスクです。
これまでの教師あり学習パラダイムやゼロショット学習パラダイムはすべて、時間のかかる注釈コストと検索パフォーマンスとの間で適切なトレードオフを達成できていませんでしたが、最近の研究者は、少数ショット CIR (FS-CIR) のタスクを導入し、テキスト反転ベースの学習パラダイムを提案しました。
それを実現するために、事前学習済みの CLIP モデルに基づいたネットワークが構築されます。
有望なパフォーマンスにもかかわらず、このアプローチには 2 つの重要な制限があります。それは、不十分なマルチモーダル クエリ構成トレーニングと、無差別なトレーニング トリプレット選択です。
これら 2 つの制限に対処するために、この研究では、PTG-FSCIR と呼ばれる新しい 2 段階擬似トリプレット誘導少数ショット CIR スキームを提案します。
最初の段階では、マスクされたトレーニング戦略と高度な画像キャプション ジェネレーターを採用して、純粋な画像データから疑似トリプレットを構築し、モデルがマルチモーダル クエリ構成に関連する一次知識を取得できるようにします。
第 2 段階では、アクティブ ラーニングに基づいて、ラベルのない各サンプルの困難なスコアを評価するための疑似修正テキスト ベースのクエリとターゲットの距離メトリックを設計します。
一方、事前学習済みモデルを微調整するために困難なサンプルをサンプリングするために、統計学の 3-$\sigma$ ルールに従って、堅牢なトップ範囲ベースのランダム サンプリング戦略を提案します。
特に、私たちのスキームはプラグアンドプレイであり、既存の教師あり CIR モデルと互換性があります。
私たちは、3 つの公開データセット (つまり、FashionIQ、CIRR、Birds-to-Words) 上の 3 つのバックボーンにわたってスキームをテストし、それぞれ 26.4%、25.5%、21.6% の最大改善を達成し、スキームの有効性を実証しました。

要約(オリジナル)

Composed Image Retrieval (CIR) is a challenging task that aims to retrieve the target image based on a multimodal query, i.e., a reference image and its corresponding modification text. While previous supervised or zero-shot learning paradigms all fail to strike a good trade-off between time-consuming annotation cost and retrieval performance, recent researchers introduced the task of few-shot CIR (FS-CIR) and proposed a textual inversion-based network based on pretrained CLIP model to realize it. Despite its promising performance, the approach suffers from two key limitations: insufficient multimodal query composition training and indiscriminative training triplet selection. To address these two limitations, in this work, we propose a novel two-stage pseudo triplet guided few-shot CIR scheme, dubbed PTG-FSCIR. In the first stage, we employ a masked training strategy and advanced image caption generator to construct pseudo triplets from pure image data to enable the model to acquire primary knowledge related to multimodal query composition. In the second stage, based on active learning, we design a pseudo modification text-based query-target distance metric to evaluate the challenging score for each unlabeled sample. Meanwhile, we propose a robust top range-based random sampling strategy according to the 3-$\sigma$ rule in statistics, to sample the challenging samples for fine-tuning the pretrained model. Notably, our scheme is plug-and-play and compatible with any existing supervised CIR models. We tested our scheme across three backbones on three public datasets (i.e., FashionIQ, CIRR, and Birds-to-Words), achieving maximum improvements of 26.4%, 25.5% and 21.6% respectively, demonstrating our scheme’s effectiveness.

arxiv情報

著者 Bohan Hou,Haoqiang Lin,Haokun Wen,Meng Liu,Xuemeng Song
発行日 2024-07-08 14:53:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク