A Survey on Class-Agnostic Counting: Advancements from Reference-Based to Open-World Text-Guided Approaches

要約

オブジェクトカウントは最近、任意のカテゴリ全体でオブジェクトをカウントするという課題に対処し、汎用性の高いカウントシステムの重要なニーズに取り組むという課題に対処するクラスに依存しないカウント(CAC)にシフトしました。
人間は、事前の知識なしに多様なカテゴリからオブジェクトを簡単に特定し、カウントしますが、ほとんどのカウント方法は、既知のクラスのインスタンスの列挙されたインスタンスに限定され、トレーニングに広範なラベル付けされたデータセットが必要であり、オープンボキャブラリー設定で苦労しています。
逆に、CACは、トレーニング中に見られなかったクラスに属するオブジェクトをカウントすることを目指しており、通常はいくつかのショット設定で動作します。
この論文では、CAC方法論の進歩を初めて確認し、ターゲットオブジェクトクラスの指定方法に基づいて3つのパラダイムに分類します。参照ベース、参照、およびオープンワールドテキストガイド。
参照ベースのアプローチでは、模範的な誘導メカニズムを使用してパフォーマンスベンチマークを設定しています。
参照のない方法は、固有の画像パターンを活用することにより、模範的な依存関係を排除します。
最後に、Open-World Text-Guided MethodはVision-Language Modelsを利用して、テキストプロンプトを介してオブジェクトクラスの説明を可能にし、柔軟で魅力的なソリューションを表します。
最先端の手法を分析し、既存のゴールドスタンダードベンチマークに関する結果を報告し、そのパフォーマンスを比較し、その強みと制限を特定して議論します。
注釈の依存、スケーラビリティ、一般化などの永続的な課題については、将来の方向とともに説明します。
この調査は、研究者が時間の経過に伴う進歩的な発展と貢献を理解するための貴重なリソースとして役立つと考えています。

要約(オリジナル)

Object counting has recently shifted towards class-agnostic counting (CAC), which addresses the challenge of counting objects across arbitrary categories, tackling a critical need in versatile counting systems. While humans effortlessly identify and count objects from diverse categories without prior knowledge, most counting methods remain restricted to enumerating instances of known classes, requiring extensive labeled datasets for training, and struggling under open-vocabulary settings. Conversely, CAC aims to count objects belonging to classes never seen during training, typically operating in a few-shot setting. In this paper, for the first time, we review advancements in CAC methodologies, categorizing them into three paradigms based on how target object classes can be specified: reference-based, reference-less, and open-world text-guided. Reference-based approaches have set performance benchmarks using exemplar-guided mechanisms. Reference-less methods eliminate exemplar dependency by leveraging inherent image patterns. Finally, open-world text-guided methods utilize vision-language models, enabling object class descriptions through textual prompts, representing a flexible and appealing solution. We analyze state-of-the-art techniques and we report their results on existing gold standard benchmarks, comparing their performance and identifying and discussing their strengths and limitations. Persistent challenges — such as annotation dependency, scalability, and generalization — are discussed, alongside future directions. We believe this survey serves as a valuable resource for researchers to understand the progressive developments and contributions over time and the current state-of-the-art of CAC, suggesting insights for future directions and challenges to be addressed.

arxiv情報

著者 Luca Ciampi,Ali Azmoudeh,Elif Ecem Akbaba,Erdi Sarıtaş,Ziya Ata Yazıcı,Hazım Kemal Ekenel,Giuseppe Amato,Fabrizio Falchi
発行日 2025-01-31 14:47:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク