要約
少数の注釈付き手本 (few-shot) または手本なし (no-shot) のみを使用して、画像内の任意のセマンティック カテゴリのロー ショット カウントを検討します。
標準の少数ショット パイプラインでは、手本から外観クエリを抽出し、それらを画像の特徴と照合してオブジェクト数を推測します。
既存の方法は、特徴プーリングによってクエリを抽出しますが、形状情報 (サイズやアスペクトなど) を無視するため、オブジェクトのローカリゼーションの精度とカウントの推定値が低下します。
反復プロトタイプ適応 (LOCA) を使用したローショット オブジェクト カウンティング ネットワークを提案します。
私たちの主な貢献は、模範的な形状と外観のクエリを画像の特徴と繰り返し融合する新しいオブジェクト プロトタイプ抽出モジュールです。
このモジュールはゼロ ショット シナリオに簡単に適応できるため、LOCA はロー ショット カウントの問題の全スペクトルをカバーできます。
LOCA は、FSC147 ベンチマークで最近のすべての最先端の手法をワンショットおよびフューズ ショットの RMSE で 20 ~ 30% 上回るパフォーマンスを発揮し、ゼロ ショット シナリオで最先端を達成すると同時に、より優れた一般化機能を実証します。
.
要約(オリジナル)
We consider low-shot counting of arbitrary semantic categories in the image using only few annotated exemplars (few-shot) or no exemplars (no-shot). The standard few-shot pipeline follows extraction of appearance queries from exemplars and matching them with image features to infer the object counts. Existing methods extract queries by feature pooling, but neglect the shape information (e.g., size and aspect), which leads to a reduced object localization accuracy and count estimates. We propose a Low-shot Object Counting network with iterative prototype Adaptation (LOCA). Our main contribution is the new object prototype extraction module, which iteratively fuses the exemplar shape and appearance queries with image features. The module is easily adapted to zero-shot scenario, enabling LOCA to cover the entire spectrum of low-shot counting problems. LOCA outperforms all recent state-of-the-art methods on FSC147 benchmark by 20-30% in RMSE on one-shot and few-shot and achieves state-of-the-art on zero-shot scenarios, while demonstrating better generalization capabilities.
arxiv情報
著者 | Nikola Djukic,Alan Lukezic,Vitjan Zavrtanik,Matej Kristan |
発行日 | 2022-11-15 15:39:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google