要約
合成画像検索 (CIR) は、マルチモーダル クエリを使用してターゲット画像、つまり参照画像とその補足的な変更テキストを取得することを目的とした、やりがいのあるタスクです。
これまでの教師あり学習パラダイムまたはゼロショット学習パラダイムはすべて、モデルの一般化能力と検索パフォーマンスの間で適切なトレードオフを達成できなかったため、最近の研究者は、少数ショット CIR (FS-CIR) のタスクを導入し、テキスト反転ベースの学習パラダイムを提案しました。
それを実現するために、事前学習済みの CLIP モデルに基づいたネットワークが構築されます。
有望なパフォーマンスにもかかわらず、このアプローチには 2 つの重要な制限があります。1 つは CIR モデルのトレーニングに少数の注釈付きサンプルに依存すること、もう 1 つは CIR モデルの微調整のためにトレーニング トリプレットを無差別に選択することです。
これら 2 つの制限に対処するために、PTG-FSCIR と呼ばれる新しい 2 段階擬似トリプレット誘導少数ショット CIR スキームを提案します。
最初の段階では、純粋な画像データから擬似トリプレットを構築し、それらを使用して CIR タスク固有の関連を満たすための、注意深いマスキングとキャプションベースの擬似トリプレット生成方法を提案します。
第 2 段階では、挑戦的なトリプレット ベースの CIR 微調整方法を提案します。そこでは、疑似修正テキスト ベースのサンプル挑戦的なスコア推定戦略と、堅牢な挑戦的なトリプレットをサンプリングするための堅牢なトップ レンジ ベースのランダム サンプリング戦略を設計します。
モデルの微調整。
特に、私たちのスキームはプラグアンドプレイであり、既存の教師あり CIR モデルと互換性があります。
3 つの公開データセット (つまり、FashionIQ、CIRR、Birds-to-Words) 上の 2 つのバックボーンにわたってスキームをテストし、それぞれ 13.3%、22.2%、17.4% の最大改善を達成し、スキームの有効性を実証しました。
要約(オリジナル)
Composed Image Retrieval (CIR) is a challenging task that aims to retrieve the target image with a multimodal query, i.e., a reference image, and its complementary modification text. As previous supervised or zero-shot learning paradigms all fail to strike a good trade-off between the model’s generalization ability and retrieval performance, recent researchers have introduced the task of few-shot CIR (FS-CIR) and proposed a textual inversion-based network based on pretrained CLIP model to realize it. Despite its promising performance, the approach encounters two key limitations: simply relying on the few annotated samples for CIR model training and indiscriminately selecting training triplets for CIR model fine-tuning. To address these two limitations, we propose a novel two-stage pseudo triplet guided few-shot CIR scheme, dubbed PTG-FSCIR. In the first stage, we propose an attentive masking and captioning-based pseudo triplet generation method, to construct pseudo triplets from pure image data and use them to fulfill the CIR-task specific pertaining. In the second stage, we propose a challenging triplet-based CIR fine-tuning method, where we design a pseudo modification text-based sample challenging score estimation strategy and a robust top range-based random sampling strategy for sampling robust challenging triplets to promote the model fine-tuning. Notably, our scheme is plug-and-play and compatible with any existing supervised CIR models. We test our scheme across two backbones on three public datasets (i.e., FashionIQ, CIRR, and Birds-to-Words), achieving maximum improvements of 13.3%, 22.2%, and 17.4% respectively, demonstrating our scheme’s efficacy.
arxiv情報
著者 | Bohan Hou,Haoqiang Lin,Haokun Wen,Meng Liu,Mingzhu Xu,Xuemeng Song |
発行日 | 2024-11-12 15:14:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google