Adaptive Fine-Grained Sketch-Based Image Retrieval

要約

ファイングレイン スケッチベースの画像検索 (FG-SBIR) に対する最近の焦点は、トレーニング データを使用せずにモデルを新しいカテゴリに一般化する方向にシフトしています。
ただし、実際のアプリケーションでは、トレーニング済みの FG-SBIR モデルは、多くの場合、新しいカテゴリとさまざまな人間のスケッチャー (つまり、さまざまな描画スタイル) の両方に適用されます。
これは一般化の問題を複雑にしますが、幸いなことに、モデルが新しいカテゴリ/スタイルに適応できるようにするために、通常、少数の例が利用可能です。
このホワイト ペーパーでは、斬新な視点を提供します。一般化するモデルを求めるのではなく、テスト中に非常に少数のサンプルで (数ショットの方法で) 迅速に適応するモデルを提唱します。
この新しい問題を解決するために、いくつかの重要な変更を加えた新しいモデルに依存しないメタ学習 (MAML) ベースのフレームワークを導入します。
より安定して扱いやすいものにします。
(2) 対照的な損失のマージンも、モデルの残りの部分でメタ学習されます。
(3) メタ学習済み FG-SBIR モデルをカテゴリ/スタイルの適応により効果的にするために、外側のループに 3 つの追加の正則化損失が導入されます。
公開データセットでの広範な実験では、一般化とゼロ ショット ベースのアプローチ、およびいくつかの強力な少数ショット ベースラインよりも大きな利点があることが示唆されています。

要約(オリジナル)

The recent focus on Fine-Grained Sketch-Based Image Retrieval (FG-SBIR) has shifted towards generalising a model to new categories without any training data from them. In real-world applications, however, a trained FG-SBIR model is often applied to both new categories and different human sketchers, i.e., different drawing styles. Although this complicates the generalisation problem, fortunately, a handful of examples are typically available, enabling the model to adapt to the new category/style. In this paper, we offer a novel perspective — instead of asking for a model that generalises, we advocate for one that quickly adapts, with just very few samples during testing (in a few-shot manner). To solve this new problem, we introduce a novel model-agnostic meta-learning (MAML) based framework with several key modifications: (1) As a retrieval task with a margin-based contrastive loss, we simplify the MAML training in the inner loop to make it more stable and tractable. (2) The margin in our contrastive loss is also meta-learned with the rest of the model. (3) Three additional regularisation losses are introduced in the outer loop, to make the meta-learned FG-SBIR model more effective for category/style adaptation. Extensive experiments on public datasets suggest a large gain over generalisation and zero-shot based approaches, and a few strong few-shot baselines.

arxiv情報

著者 Ayan Kumar Bhunia,Aneeshan Sain,Parth Shah,Animesh Gupta,Pinaki Nath Chowdhury,Tao Xiang,Yi-Zhe Song
発行日 2022-08-19 11:54:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク