OmniCount: Multi-label Object Counting with Semantic-Geometric Priors


この論文では、オープン語彙フレームワークを使用して複数のオブジェクト カテゴリの同時カウントを可能にする、より実用的なアプローチを紹介します。
当社のソリューションである OmniCount は、事前トレーニングされたモデルからのセマンティックおよび幾何学的な洞察 (事前) を使用して、追加のトレーニングを必要とせずに、ユーザーが指定した複数のカテゴリーのオブジェクトをカウントすることで際立っています。
OmniCount は、正確なオブジェクト マスクを生成し、Segment Anything Model を介してさまざまな対話型プロンプトを活用して効率的なカウントを実現することで、優れた特徴を持っています。
OmniCount を評価するために、OmniCount-191 ベンチマークを作成しました。これは、ポイント、境界ボックス、VQA アノテーションを含むマルチラベル オブジェクト数を含む、この種では初めてのデータセットです。
OmniCount-191 での包括的な評価は、他の主要なベンチマークと並んで、OmniCount の卓越したパフォーマンスが実証されており、既存のソリューションを大幅に上回っています。
プロジェクトの Web ページは で利用できます。


Object counting is pivotal for understanding the composition of scenes. Previously, this task was dominated by class-specific methods, which have gradually evolved into more adaptable class-agnostic strategies. However, these strategies come with their own set of limitations, such as the need for manual exemplar input and multiple passes for multiple categories, resulting in significant inefficiencies. This paper introduces a more practical approach enabling simultaneous counting of multiple object categories using an open-vocabulary framework. Our solution, OmniCount, stands out by using semantic and geometric insights (priors) from pre-trained models to count multiple categories of objects as specified by users, all without additional training. OmniCount distinguishes itself by generating precise object masks and leveraging varied interactive prompts via the Segment Anything Model for efficient counting. To evaluate OmniCount, we created the OmniCount-191 benchmark, a first-of-its-kind dataset with multi-label object counts, including points, bounding boxes, and VQA annotations. Our comprehensive evaluation in OmniCount-191, alongside other leading benchmarks, demonstrates OmniCount’s exceptional performance, significantly outpacing existing solutions. The project webpage is available at


著者 Anindya Mondal,Sauradip Nag,Xiatian Zhu,Anjan Dutta
発行日 2025-01-22 12:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, eess.IV, eess.SP パーマリンク