Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling

要約

Fine-Grained Sketch-Based Image Retrieval (FG-SBIR) は、埋め込み空間内のスケッチと対応する画像間の距離を最小限に抑えることを目的としています。
ただし、主にきめの細かいスケッチの抽象的な性質により、ソリューションの複雑さが増すことにより、スケーラビリティが妨げられています。
この論文では、2 つのドメイン間のギャップを狭めるための効果的なアプローチを提案します。
これは主に、モダリティ間の単一の特徴調整問題として扱うのではなく、サンプル内およびサンプル間の両方の統合された相互情報共有を促進します。
具体的には、私たちのアプローチには以下が含まれます: (i) デュアル重み共有ネットワークを採用して、スケッチと画像ドメイン内の位置合わせを最適化します。これにより、モデル学習の飽和問題も効果的に軽減されます。
(ii) コントラスト損失に基づく客観的最適化関数を導入して、サンプル内およびサンプル間の両方で特徴を調整するモデルの機能を強化します。
(iii) マルチスケール機能で破棄されたパッチ トークンをリサイクルすることを特徴とする自己監視型マルチスケール トークン リサイクル (MSTR) モジュールを提示し、表現能力と取得パフォーマンスをさらに強化します。
私たちのフレームワークは、CNN および ViT ベースのバックボーンで優れた結果を達成します。
広範な実験により、既存の方法よりも優れていることが実証されています。
また、私たちの方法を検証するために利用され、他のアプリケーションにも有益となる、初のプロ仕様のファッション スケッチ画像データセットである Cloths-V1 も紹介します。

要約(オリジナル)

Fine-Grained Sketch-Based Image Retrieval (FG-SBIR) aims to minimize the distance between sketches and corresponding images in the embedding space. However, scalability is hindered by the growing complexity of solutions, mainly due to the abstract nature of fine-grained sketches. In this paper, we propose an effective approach to narrow the gap between the two domains. It mainly facilitates unified mutual information sharing both intra- and inter-samples, rather than treating them as a single feature alignment problem between modalities. Specifically, our approach includes: (i) Employing dual weight-sharing networks to optimize alignment within the sketch and image domain, which also effectively mitigates model learning saturation issues. (ii) Introducing an objective optimization function based on contrastive loss to enhance the model’s ability to align features in both intra- and inter-samples. (iii) Presenting a self-supervised Multi-Scale Token Recycling (MSTR) Module featured by recycling discarded patch tokens in multi-scale features, further enhancing representation capability and retrieval performance. Our framework achieves excellent results on CNN- and ViT-based backbones. Extensive experiments demonstrate its superiority over existing methods. We also introduce Cloths-V1, the first professional fashion sketch-image dataset, utilized to validate our method and will be beneficial for other applications

arxiv情報

著者 Jianan Jiang,Hao Tang,Zhilin Jiang,Weiren Yu,Di Wu
発行日 2024-08-01 16:00:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク