CountingDINO: A Training-free Pipeline for Class-Agnostic Counting using Unsupervised Backbones

要約

クラスに依存しないカウント(CAC)は、事前定義されたカテゴリに制限されることなく、画像内のオブジェクトの数を推定することを目的としています。
ただし、現在の模範ベースのCACメソッドは推論時間に柔軟性を提供しますが、トレーニングのラベル付きデータに大きく依存しているため、多くのダウンストリームユースケースにスケーラビリティと一般化が制限されます。
この論文では、完全に監視されていない機能抽出器を活用する最初のトレーニングのない模範ベースのCACフレームワークであるCountingdinoを紹介します。
具体的には、私たちのアプローチは、自己監視のビジョンのみのバックボーンを採用してオブジェクトを認識している機能を抽出し、提案されたパイプライン全体で注釈付きデータの必要性を排除します。
推論時に、Dino機能からRoI-Alignを介して潜在オブジェクトのプロトタイプを抽出し、それらを畳み込みカーネルとして使用して類似性マップを生成します。
これらは、シンプルでありながら効果的な正規化スキームを介して密度マップに変換されます。
FSC-147ベンチマークでアプローチを評価します。このアプローチでは、同じラベルおよびトレーニングのない設定の下で、SOTA非監視オブジェクト検出器に基づいてベースラインを常に上回ります。
さらに、私たちは競争力のある結果を達成し、場合によっては、監督されたバックボーン、訓練を受けていない非監視なしの方法、およびいくつかの完全に監視されたSOTAアプローチに依存するトレーニングなしの方法を達成します。
これは、ラベルとトレーニングのないCACがスケーラブルで効果的であることを示しています。
コード:https://lorebianchi98.github.io/countingdino/。

要約(オリジナル)

Class-agnostic counting (CAC) aims to estimate the number of objects in images without being restricted to predefined categories. However, while current exemplar-based CAC methods offer flexibility at inference time, they still rely heavily on labeled data for training, which limits scalability and generalization to many downstream use cases. In this paper, we introduce CountingDINO, the first training-free exemplar-based CAC framework that exploits a fully unsupervised feature extractor. Specifically, our approach employs self-supervised vision-only backbones to extract object-aware features, and it eliminates the need for annotated data throughout the entire proposed pipeline. At inference time, we extract latent object prototypes via ROI-Align from DINO features and use them as convolutional kernels to generate similarity maps. These are then transformed into density maps through a simple yet effective normalization scheme. We evaluate our approach on the FSC-147 benchmark, where we consistently outperform a baseline based on an SOTA unsupervised object detector under the same label- and training-free setting. Additionally, we achieve competitive results — and in some cases surpass — training-free methods that rely on supervised backbones, non-training-free unsupervised methods, as well as several fully supervised SOTA approaches. This demonstrates that label- and training-free CAC can be both scalable and effective. Code: https://lorebianchi98.github.io/CountingDINO/.

arxiv情報

著者 Giacomo Pacini,Lorenzo Bianchi,Luca Ciampi,Nicola Messina,Giuseppe Amato,Fabrizio Falchi
発行日 2025-04-30 15:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク