Point, Segment and Count: A Generalized Framework for Object Counting

要約

クラスに依存しないオブジェクトのカウントは、サンプル ボックスまたはクラス名に基づいて画像内のすべてのオブジェクトをカウントすること、\emph{別名} 少数ショットおよびゼロショットのカウントを目的としています。
この論文では、検出に基づいて少数ショットとゼロショットの両方のオブジェクトをカウントするための一般化されたフレームワークを提案します。
私たちのフレームワークは、ゼロショット機能を損なうことなく 2 つの基礎モデルの優れた利点を組み合わせています: (\textbf{i}) SAM はすべての可能なオブジェクトをマスク提案としてセグメント化し、(\textbf{ii}) CLIP は提案を分類して正確な情報を取得します
オブジェクトはカウントされます。
ただし、この戦略は、効率のオーバーヘッドと、位置を特定したり区別したりできない小さな混雑したオブジェクトという障害に直面します。
これらの問題に対処するために、PseCo と呼ばれる私たちのフレームワークは、ポイント、セグメント、カウントの 3 つのステップに従います。
具体的には、最初にクラスに依存しないオブジェクト位置特定を提案し、SAM に正確かつ最小限のポイント プロンプトを提供します。これにより、計算コストが削減されるだけでなく、小さなオブジェクトの欠落も回避されます。
さらに、階層マスク提案間の識別分類を取得するための階層知識蒸留に続いて、CLIP画像/テキスト埋め込みを分類子として活用する一般化されたオブジェクト分類を提案します。
FSC-147、COCO、および LVIS に関する広範な実験結果は、PseCo が少数ショット/ゼロショットの物体カウント/検出の両方で最先端のパフォーマンスを達成することを実証しています。
コード: https://github.com/Hzzone/PseCo

要約(オリジナル)

Class-agnostic object counting aims to count all objects in an image with respect to example boxes or class names, \emph{a.k.a} few-shot and zero-shot counting. In this paper, we propose a generalized framework for both few-shot and zero-shot object counting based on detection. Our framework combines the superior advantages of two foundation models without compromising their zero-shot capability: (\textbf{i}) SAM to segment all possible objects as mask proposals, and (\textbf{ii}) CLIP to classify proposals to obtain accurate object counts. However, this strategy meets the obstacles of efficiency overhead and the small crowded objects that cannot be localized and distinguished. To address these issues, our framework, termed PseCo, follows three steps: point, segment, and count. Specifically, we first propose a class-agnostic object localization to provide accurate but least point prompts for SAM, which consequently not only reduces computation costs but also avoids missing small objects. Furthermore, we propose a generalized object classification that leverages CLIP image/text embeddings as the classifier, following a hierarchical knowledge distillation to obtain discriminative classifications among hierarchical mask proposals. Extensive experimental results on FSC-147, COCO, and LVIS demonstrate that PseCo achieves state-of-the-art performance in both few-shot/zero-shot object counting/detection. Code: https://github.com/Hzzone/PseCo

arxiv情報

著者 Zhizhong Huang,Mingliang Dai,Yi Zhang,Junping Zhang,Hongming Shan
発行日 2024-03-27 15:01:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク