OmniCount: Multi-label Object Counting with Semantic-Geometric Priors

要約

オブジェクトのカウントは、シーンの構成を理解する上で極めて重要です。
以前は、このタスクはクラス固有のメソッドが主流でしたが、このメソッドは徐々に、より適応性のあるクラスに依存しない戦略に進化しました。
ただし、これらの戦略には、手動によるサンプル入力や複数のカテゴリに対する複数のパスの必要性など、独自の制限があり、その結果、大幅な非効率が生じます。
この論文では、オープン語彙フレームワークを使用して複数のオブジェクト カテゴリの同時カウントを可能にする、より実用的な新しいアプローチを紹介します。
当社のソリューションである OmniCount は、事前トレーニングされたモデルからのセマンティックおよび幾何学的な洞察を使用して、追加のトレーニングを必要とせずに、ユーザーが指定した複数のカテゴリのオブジェクトをカウントするという点で優れています。
OmniCount は、正確なオブジェクト マスクを生成し、セグメント エニシング モデルを介してポイント プロンプトを活用して効率的なカウントを実現することで、優れた特徴を持っています。
OmniCount を評価するために、OmniCount-191 ベンチマークを作成しました。これは、ポイント、境界ボックス、VQA アノテーションを含むマルチラベル オブジェクト数を含む、この種では初めてのデータセットです。
OmniCount-191 での包括的な評価は、他の主要なベンチマークと並んで、OmniCount の卓越したパフォーマンスを実証し、既存のソリューションを大幅に上回り、物体計数テクノロジーの新時代の到来を告げています。

要約(オリジナル)

Object counting is pivotal for understanding the composition of scenes. Previously, this task was dominated by class-specific methods, which have gradually evolved into more adaptable class-agnostic strategies. However, these strategies come with their own set of limitations, such as the need for manual exemplar input and multiple passes for multiple categories, resulting in significant inefficiencies. This paper introduces a new, more practical approach enabling simultaneous counting of multiple object categories using an open vocabulary framework. Our solution, OmniCount, stands out by using semantic and geometric insights from pre-trained models to count multiple categories of objects as specified by users, all without additional training. OmniCount distinguishes itself by generating precise object masks and leveraging point prompts via the Segment Anything Model for efficient counting. To evaluate OmniCount, we created the OmniCount-191 benchmark, a first-of-its-kind dataset with multi-label object counts, including points, bounding boxes, and VQA annotations. Our comprehensive evaluation in OmniCount-191, alongside other leading benchmarks, demonstrates OmniCount’s exceptional performance, significantly outpacing existing solutions and heralding a new era in object counting technology.

arxiv情報

著者 Anindya Mondal,Sauradip Nag,Xiatian Zhu,Anjan Dutta
発行日 2024-03-08 16:38:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, eess.SP パーマリンク