要約
合成画像取得 (CIR) タスクは、参照画像と変更されたテキストで構成される合成クエリを使用してターゲット画像を取得することを目的としています。
高度な手法では、最適化の目的として対照学習を利用することがよくあり、これは適切な正例と負例から恩恵を受けます。
ただし、CIR のトリプレットでは手動によるアノテーションのコストが高くつくため、肯定的な例は限られます。
さらに、既存の手法では一般にバッチ内負のサンプリングが使用されるため、モデルで使用できる負の数が減少します。
ポジティブの欠如の問題に対処するために、マルチモーダル大規模言語モデルを活用して CIR のトリプレットを構築することによるデータ生成方法を提案します。
微調整中にさらにネガを導入するために、CIR 用の 2 段階の微調整フレームワークを設計します。その第 2 段階では、ネガの静的表現を大量に導入して、表現空間を迅速に最適化します。
上記の 2 つの改善点は効果的に積み重ねることができ、プラグ アンド プレイで設計できるため、元のアーキテクチャを変更することなく既存の CIR モデルに簡単に適用できます。
広範な実験とアブレーション分析により、私たちの方法がポジティブとネガティブを効果的にスケールし、FashionIQ と CIRR データセットの両方で最先端の結果が得られることが実証されました。
さらに、私たちの方法はゼロショット合成画像検索でも優れたパフォーマンスを発揮し、低リソースのシナリオに新しい CIR ソリューションを提供します。
コードとデータは https://github.com/BUAADreamer/SPN4CIR で公開されています。
要約(オリジナル)
The Composed Image Retrieval (CIR) task aims to retrieve target images using a composed query consisting of a reference image and a modified text. Advanced methods often utilize contrastive learning as the optimization objective, which benefits from adequate positive and negative examples. However, the triplet for CIR incurs high manual annotation costs, resulting in limited positive examples. Furthermore, existing methods commonly use in-batch negative sampling, which reduces the negative number available for the model. To address the problem of lack of positives, we propose a data generation method by leveraging a multi-modal large language model to construct triplets for CIR. To introduce more negatives during fine-tuning, we design a two-stage fine-tuning framework for CIR, whose second stage introduces plenty of static representations of negatives to optimize the representation space rapidly. The above two improvements can be effectively stacked and designed to be plug-and-play, easily applied to existing CIR models without changing their original architectures. Extensive experiments and ablation analysis demonstrate that our method effectively scales positives and negatives and achieves state-of-the-art results on both FashionIQ and CIRR datasets. In addition, our method also performs well in zero-shot composed image retrieval, providing a new CIR solution for the low-resources scenario. Our code and data are released at https://github.com/BUAADreamer/SPN4CIR.
arxiv情報
| 著者 | Zhangchi Feng,Richong Zhang,Zhijie Nie |
| 発行日 | 2024-08-07 13:20:30+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google