要約
クエリが画像とテキストの 2 つのモダリティで構成され、ユーザーの表現能力を拡張する構成画像検索 (CoIR) のタスクを研究します。
以前の方法では通常、各クエリ モダリティを個別にエンコードし、その後に抽出した特徴を後から融合することで、このタスクに対処していました。
この論文では、追加の補助タスクを備えたクロスアテンションモジュールを介してモダリティ間の早期融合を採用する、新しいアプローチであるクロスアテンション駆動型シフトエンコーダー(CASE)を提案します。
確立されたベンチマーク (FashionIQ および CIRR) で、私たちの方法が既存の最先端技術よりも大幅に優れていることを示します。
ただし、CoIR データセットは、他の視覚言語 (V&L) データセットと比較して数桁小さく、重大な欠陥 (冗長なモダリティを使用したクエリなど) があるものもあります。
現在のデータセットの 10 倍の新しい CoIR データセットである大規模合成画像検索 (LaSCo) を導入することで、これらの欠点に対処します。
LaSCo での事前トレーニングにより、パフォーマンスがさらに向上します。
さらに、クエリでモダリティの冗長性または必要性を検出するために、CoIR データセットとメソッドの新しい分析を提案します。
要約(オリジナル)
We study the task of Composed Image Retrieval (CoIR), where a query is composed of two modalities, image and text, extending the user’s expression ability. Previous methods typically address this task by a separate encoding of each query modality, followed by late fusion of the extracted features. In this paper, we propose a new approach, Cross-Attention driven Shift Encoder (CASE), employing early fusion between modalities through a cross-attention module with an additional auxiliary task. We show that our method outperforms the existing state-of-the-art, on established benchmarks (FashionIQ and CIRR) by a large margin. However, CoIR datasets are a few orders of magnitude smaller compared to other vision and language (V&L) datasets, and some suffer from serious flaws (e.g., queries with a redundant modality). We address these shortcomings by introducing Large Scale Composed Image Retrieval (LaSCo), a new CoIR dataset x10 times larger than current ones. Pre-training on LaSCo yields a further performance boost. We further suggest a new analysis of CoIR datasets and methods, for detecting modality redundancy or necessity, in queries.
arxiv情報
著者 | Matan Levy,Rami Ben-Ari,Nir Darshan,Dani Lischinski |
発行日 | 2023-03-16 16:02:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google