OmniCount: Multi-label Object Counting with Semantic-Geometric Priors

要約

オブジェクトのカウントは、シーンの構成を理解する上で極めて重要です。
以前は、このタスクはクラス固有のメソッドが主流でしたが、このメソッドは徐々に、より適応性のあるクラスに依存しない戦略に進化しました。
ただし、これらの戦略には、手動によるサンプル入力や複数のカテゴリに対する複数のパスの必要性など、独自の制限があり、その結果、大幅な非効率が生じます。
この論文では、オープン語彙フレームワークを使用して複数のオブジェクト カテゴリの同時カウントを可能にする、より実用的なアプローチを紹介します。
当社のソリューションである OmniCount は、事前トレーニングされたモデルからのセマンティックおよび幾何学的な洞察 (事前) を使用して、追加のトレーニングを必要とせずに、ユーザーが指定した複数のカテゴリーのオブジェクトをカウントすることで際立っています。
OmniCount は、正確なオブジェクト マスクを生成し、Segment Anything Model を介してさまざまな対話型プロンプトを活用して効率的なカウントを実現することで、優れた特徴を持っています。
OmniCount を評価するために、OmniCount-191 ベンチマークを作成しました。これは、ポイント、境界ボックス、VQA アノテーションを含むマルチラベル オブジェクト数を含む、この種では初めてのデータセットです。
OmniCount-191 での包括的な評価は、他の主要なベンチマークと並んで、OmniCount の卓越したパフォーマンスが実証されており、既存のソリューションを大幅に上回っています。
プロジェクトの Web ページは https://mondalanindya.github.io/OmniCount で利用できます。

要約(オリジナル)

Object counting is pivotal for understanding the composition of scenes. Previously, this task was dominated by class-specific methods, which have gradually evolved into more adaptable class-agnostic strategies. However, these strategies come with their own set of limitations, such as the need for manual exemplar input and multiple passes for multiple categories, resulting in significant inefficiencies. This paper introduces a more practical approach enabling simultaneous counting of multiple object categories using an open-vocabulary framework. Our solution, OmniCount, stands out by using semantic and geometric insights (priors) from pre-trained models to count multiple categories of objects as specified by users, all without additional training. OmniCount distinguishes itself by generating precise object masks and leveraging varied interactive prompts via the Segment Anything Model for efficient counting. To evaluate OmniCount, we created the OmniCount-191 benchmark, a first-of-its-kind dataset with multi-label object counts, including points, bounding boxes, and VQA annotations. Our comprehensive evaluation in OmniCount-191, alongside other leading benchmarks, demonstrates OmniCount’s exceptional performance, significantly outpacing existing solutions. The project webpage is available at https://mondalanindya.github.io/OmniCount.

arxiv情報

著者 Anindya Mondal,Sauradip Nag,Xiatian Zhu,Anjan Dutta
発行日 2025-01-22 12:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, eess.SP パーマリンク