Zero-shot Composed Text-Image Retrieval

要約

この論文では、合成画像検索 (CIR) の問題を検討します。この問題は、テキストと画像などのマルチモーダル情報を融合して、クエリに一致する画像を正確に検索し、ユーザーの表現能力を拡張できるモデルをトレーニングすることを目的としています。

私たちは以下の貢献を行っています。(i) 画像とテキストのペアの大規模なデータセット (例: LAION-5B のサブセット) を利用するだけで、CIR モデルをトレーニングするためのデータセットを自動的に構築するスケーラブルなパイプラインを開始します。
(ii) トランスフォーマーベースの適応集約モデルである TransAgg を導入します。これは、多様なモダリティからの情報を適応的に組み合わせるために、シンプルだが効率的な融合メカニズムを採用しています。
(iii) 私たちは、提案したデータ構築手順の有用性と、TransAgg のコア コンポーネントの有効性を調査するために、広範なアブレーション研究を実施します。
(iv) ゼロショット シナリオ (つまり、自動的に構築されたデータセットでトレーニング) の下で公的に利用可能なベンチマークで評価する場合、その後ターゲットの下流データセット (CIRR や FashionIQ など) で直接推論を実行する場合、私たちの提案するアプローチは、同等または同等のパフォーマンスを発揮します。
既存の最先端 (SOTA) モデルを大幅に上回ります。
プロジェクトページ:https://code-kunkun.github.io/ZS-CIR/

要約(オリジナル)

In this paper, we consider the problem of composed image retrieval (CIR), it aims to train a model that can fuse multi-modal information, e.g., text and images, to accurately retrieve images that match the query, extending the user’s expression ability. We make the following contributions: (i) we initiate a scalable pipeline to automatically construct datasets for training CIR model, by simply exploiting a large-scale dataset of image-text pairs, e.g., a subset of LAION-5B; (ii) we introduce a transformer-based adaptive aggregation model, TransAgg, which employs a simple yet efficient fusion mechanism, to adaptively combine information from diverse modalities; (iii) we conduct extensive ablation studies to investigate the usefulness of our proposed data construction procedure, and the effectiveness of core components in TransAgg; (iv) when evaluating on the publicly available benckmarks under the zero-shot scenario, i.e., training on the automatically constructed datasets, then directly conduct inference on target downstream datasets, e.g., CIRR and FashionIQ, our proposed approach either performs on par with or significantly outperforms the existing state-of-the-art (SOTA) models. Project page: https://code-kunkun.github.io/ZS-CIR/

arxiv情報

著者 Yikun Liu,Jiangchao Yao,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2023-06-12 17:56:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク