A Recipe for CAC: Mosaic-based Generalized Loss for Improved Class-Agnostic Counting

要約

クラスに依存しないカウント (CAC) は、クエリ画像内の任意の参照オブジェクトの合計出現数をカウントするために使用できるビジョン タスクです。
このタスクは通常、参照オブジェクトとクエリ画像のいくつかの画像サンプル間の類似性計算を介した密度マップ推定問題として定式化されます。
この論文では、既存の CAC フレームワークの深刻な問題を指摘します。つまり、マルチクラス設定を指定すると、モデルは参照画像を考慮せず、代わりにクエリ画像内のすべての支配的なオブジェクトを盲目的に照合します。
さらに、現在の評価メトリックとデータセットを使用して、モデルの汎化パフォーマンスと堅牢性を忠実に評価することはできません。
この目的を達成するために、参照に関係なく多数派のオブジェクト (つまり、支配的なオブジェクト) をカウントするための CAC モデルの前述の問題に対処するには、モザイク拡張と一般化損失の組み合わせが不可欠であることを発見しました。
さらに、既存の CAC 評価スキームの背後にある問題を解決し、より公平な方法で CAC モデルをより適切にベンチマークするための新しい評価プロトコルと指標を導入します。
さらに、広範な評価結果は、私たちが提案したレシピがさまざまな CAC モデルのパフォーマンスを一貫して向上できることを示しています。
コードは https://github.com/littlepenguin89106/MGCAC で入手できます。

要約(オリジナル)

Class agnostic counting (CAC) is a vision task that can be used to count the total occurrence number of any given reference objects in the query image. The task is usually formulated as a density map estimation problem through similarity computation among a few image samples of the reference object and the query image. In this paper, we point out a severe issue of the existing CAC framework: Given a multi-class setting, models don’t consider reference images and instead blindly match all dominant objects in the query image. Moreover, the current evaluation metrics and dataset cannot be used to faithfully assess the model’s generalization performance and robustness. To this end, we discover that the combination of mosaic augmentation with generalized loss is essential for addressing the aforementioned issue of CAC models to count objects of majority (i.e. dominant objects) regardless of the references. Furthermore, we introduce a new evaluation protocol and metrics for resolving the problem behind the existing CAC evaluation scheme and better benchmarking CAC models in a more fair manner. Besides, extensive evaluation results demonstrate that our proposed recipe can consistently improve the performance of different CAC models. The code is available at https://github.com/littlepenguin89106/MGCAC.

arxiv情報

著者 Tsung-Han Chou,Brian Wang,Wei-Chen Chiu,Jun-Cheng Chen
発行日 2024-11-18 14:52:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク