要約
スケッチベースの画像検索の表現学習は、主にモダリティ固有の情報を破棄する埋め込みを学習することによって取り組まれてきました。
異なるモダリティからのインスタンスは、基本的な概念を説明する補完的な情報を提供することが多いため、モダリティ固有の情報を破棄する代わりに融合するビジョン トランスフォーマー (XModalViT) の相互注意フレームワークを提案します。
私たちのフレームワークは、最初に、個々の写真とスケッチのモダリティからペアになったデータポイントを、両方のモダリティからの情報を統合する融合表現にマッピングします。
次に、前述のモダリティ融合ネットワークの入力空間を、対照的およびリレーショナルなクロスモーダル知識蒸留を介して、個々のモダリティの独立したエンコーダーに分離します。
このようなエンコーダーは、クロスモーダル検索などのダウンストリーム タスクに適用できます。
幅広い実験を行い、Shoe-V2、Chair-V2、および Sketchy の 3 つのきめの細かいスケッチベースの画像検索ベンチマークで最先端の結果を達成することにより、学習した表現の表現能力を実証します。
実装は https://github.com/abhrac/xmodal-vit で入手できます。
要約(オリジナル)
Representation learning for sketch-based image retrieval has mostly been tackled by learning embeddings that discard modality-specific information. As instances from different modalities can often provide complementary information describing the underlying concept, we propose a cross-attention framework for Vision Transformers (XModalViT) that fuses modality-specific information instead of discarding them. Our framework first maps paired datapoints from the individual photo and sketch modalities to fused representations that unify information from both modalities. We then decouple the input space of the aforementioned modality fusion network into independent encoders of the individual modalities via contrastive and relational cross-modal knowledge distillation. Such encoders can then be applied to downstream tasks like cross-modal retrieval. We demonstrate the expressive capacity of the learned representations by performing a wide range of experiments and achieving state-of-the-art results on three fine-grained sketch-based image retrieval benchmarks: Shoe-V2, Chair-V2 and Sketchy. Implementation is available at https://github.com/abhrac/xmodal-vit.
arxiv情報
著者 | Abhra Chaudhuri,Massimiliano Mancini,Yanbei Chen,Zeynep Akata,Anjan Dutta |
発行日 | 2022-10-19 11:50:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google