Towards Unsupervised Sketch-based Image Retrieval

要約

既存の教師付きスケッチベースの画像検索 (SBIR) アルゴリズムの実用的な価値は、集中的なデータ収集とラベル付けの要件によって大きく制限されます。
このホワイト ペーパーでは、教師なし SBIR で、従来はトレーニングに必要だったラベル付けコスト (カテゴリ注釈とスケッチと写真のペアリングの両方) を削除する最初の試みを紹介します。
既存の単一ドメインの教師なし表現学習方法は、問題の固有のクロスドメイン (スケッチと写真) の性質により、このアプリケーションではうまく機能しません。
したがって、スケッチ写真ドメインのアライメントとセマンティック認識表現学習を同時に実行する新しいフレームワークを紹介します。
技術的には、これはジョイント ディストリビューション オプティマイズ トランスポート (JDOT) を導入して異なるドメインからのデータを調整することによって支えられています。これは、トレーニング可能なクラスター プロトタイプで拡張し、スケーラビリティと有効性をさらに向上させるメモリ バンクを備えています。
広範な実験により、私たちのフレームワークが新しい教師なし設定で優れたパフォーマンスを達成し、ゼロ ショット設定で最先端技術と同等またはそれ以上のパフォーマンスを発揮することが示されています。

要約(オリジナル)

The practical value of existing supervised sketch-based image retrieval (SBIR) algorithms is largely limited by the requirement for intensive data collection and labeling. In this paper, we present the first attempt at unsupervised SBIR to remove the labeling cost (both category annotations and sketch-photo pairings) that is conventionally needed for training. Existing single-domain unsupervised representation learning methods perform poorly in this application, due to the unique cross-domain (sketch and photo) nature of the problem. We therefore introduce a novel framework that simultaneously performs sketch-photo domain alignment and semantic-aware representation learning. Technically this is underpinned by introducing joint distribution optimal transport (JDOT) to align data from different domains, which we extend with trainable cluster prototypes and feature memory banks to further improve scalability and efficacy. Extensive experiments show that our framework achieves excellent performance in the new unsupervised setting, and performs comparably or better than state-of-the-art in the zero-shot setting.

arxiv情報

著者 Conghui Hu,Yongxin Yang,Yunpeng Li,Timothy M. Hospedales,Yi-Zhe Song
発行日 2022-11-18 08:48:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク