要約
クラス非依存計数 (CAC) タスクは、入力画像内に与えられたいくつかの見本を使用して任意のクラスのすべてのオブジェクトを計数する問題を解決するために最近提案されました。
この困難なタスクに対処するために、既存の主要な手法はすべて密度マップ回帰に頼っています。これにより、オブジェクトの位置を必要とする下流のタスクでは実用的ではなくなり、監視用の見本のスケール情報を十分に調査する能力が制限されます。
この制限に対処するために、私たちは、Scale-modulated Query and Localization Network (SQLNet) と呼ばれる、新しいローカリゼーション ベースの CAC アプローチを提案します。
クエリとローカリゼーションの両方の段階で標本のスケールを徹底的に調査し、各オブジェクトを正確に位置特定し、そのおおよそのサイズを予測することで効果的なカウントを実現します。
具体的には、クエリの段階で、ターゲット クラスの豊富な識別表現が、階層型エグゼンプラ連携拡張 (HECE) モジュールによって、等頻度サイズのプロンプト埋め込みを使用したマルチスケールのエグゼンプラ連携を通じて、少数のエグゼンプラから取得されます。
これらの表現はその後、Exemplars-Unified Query Correlation (EUQC) モジュールに供給され、統一された方法でクエリ特徴と対話し、相関クエリ テンソルを生成します。
位置特定段階では、スケール対応マルチヘッド位置特定 (SAML) モジュールがクエリ テンソルを利用して、各潜在的なオブジェクトの信頼性、位置、およびサイズを予測します。
さらに、スケールを意識したローカライゼーション損失が導入され、柔軟な位置の関連付けとモデルのパフォーマンスを最適化するための監視用スケールの例が利用されます。
広範な実験により、SQLNet が一般的な CAC ベンチマークで最先端の手法を上回っており、計数精度だけでなく位置特定と境界ボックスの生成においても優れたパフォーマンスを達成していることが実証されています。
私たちのコードは https://github.com/HCPLab-SYSU/SQLNet で入手できます。
要約(オリジナル)
The class-agnostic counting (CAC) task has recently been proposed to solve the problem of counting all objects of an arbitrary class with several exemplars given in the input image. To address this challenging task, existing leading methods all resort to density map regression, which renders them impractical for downstream tasks that require object locations and restricts their ability to well explore the scale information of exemplars for supervision. To address the limitations, we propose a novel localization-based CAC approach, termed Scale-modulated Query and Localization Network (SQLNet). It fully explores the scales of exemplars in both the query and localization stages and achieves effective counting by accurately locating each object and predicting its approximate size. Specifically, during the query stage, rich discriminative representations of the target class are acquired by the Hierarchical Exemplars Collaborative Enhancement (HECE) module from the few exemplars through multi-scale exemplar cooperation with equifrequent size prompt embedding. These representations are then fed into the Exemplars-Unified Query Correlation (EUQC) module to interact with the query features in a unified manner and produce the correlated query tensor. In the localization stage, the Scale-aware Multi-head Localization (SAML) module utilizes the query tensor to predict the confidence, location, and size of each potential object. Moreover, a scale-aware localization loss is introduced, which exploits flexible location associations and exemplar scales for supervision to optimize the model performance. Extensive experiments demonstrate that SQLNet outperforms state-of-the-art methods on popular CAC benchmarks, achieving excellent performance not only in counting accuracy but also in localization and bounding box generation. Our codes will be available at https://github.com/HCPLab-SYSU/SQLNet
arxiv情報
著者 | Hefeng Wu,Yandong Chen,Lingbo Liu,Tianshui Chen,Keze Wang,Liang Lin |
発行日 | 2023-11-16 16:50:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google