Sketch-an-Anchor: Sub-epoch Fast Model Adaptation for Zero-shot Sketch-based Image Retrieval

要約

Sketch-an-Anchor は、エポックの下で最先端の Zero-shot Sketch-based Image Retrieval (ZSSBIR) モデルをトレーニングする新しい方法です。
ほとんどの研究では、ZSSBIR の問題を 2 つの部分に分けています。SBIR から継承された画像とスケッチ間のドメイン アライメントと、ゼロショット プロトコルに固有の目に見えないデータへの一般化です。
これらの問題の 1 つを大幅に単純化して、ZSSBIR 問題を既製モデルのゼロ ショット画像ベースの検索パフォーマンスに合わせて再構成できると主張します。
私たちの高速収束モデルは、スケッチから同様の表現を抽出することを学習しながら、単一ドメインのパフォーマンスを維持します。
この目的のために、セマンティック アンカー (単語ベースのセマンティック スペースと既製のモデルの機能から学習したガイド埋め込み) を導入し、それらを新しいアンカー コントラスティティブ ロスと組み合わせます。
経験的証拠によると、他の方法よりも 100 分の 1 の反復回数でトレーニングしながら、すべてのベンチマーク データセットで最先端のパフォーマンスを達成できることが示されています。

要約(オリジナル)

Sketch-an-Anchor is a novel method to train state-of-the-art Zero-shot Sketch-based Image Retrieval (ZSSBIR) models in under an epoch. Most studies break down the problem of ZSSBIR into two parts: domain alignment between images and sketches, inherited from SBIR, and generalization to unseen data, inherent to the zero-shot protocol. We argue one of these problems can be considerably simplified and re-frame the ZSSBIR problem around the already-stellar yet underexplored Zero-shot Image-based Retrieval performance of off-the-shelf models. Our fast-converging model keeps the single-domain performance while learning to extract similar representations from sketches. To this end we introduce our Semantic Anchors — guiding embeddings learned from word-based semantic spaces and features from off-the-shelf models — and combine them with our novel Anchored Contrastive Loss. Empirical evidence shows we can achieve state-of-the-art performance on all benchmark datasets while training for 100x less iterations than other methods.

arxiv情報

著者 Leo Sampaio Ferraz Ribeiro,Moacir Antonelli Ponti
発行日 2023-03-29 15:00:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク