CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification

要約

私たちは、正確な群衆密度推定のための初の完全な CLIP ベースのモデルである CLIP-EBC を提案します。
CLIP モデルは、ゼロショット画像分類などの認識タスクへの対処において顕著な成功を収めていますが、計数などの回帰問題を認識タスクに変換する際に固有の課題があるため、計数に関するその可能性はほとんど解明されていません。
この研究では、特に画像から群衆のサイズを推定するタスクに焦点を当てて、CLIP のカウント能力を調査および強化します。
既存の分類ベースの群衆カウント フレームワークには、境界を接する実数値ビンへのカウント値の量子化や分類エラーのみに焦点を当てるなど、重大な制限があります。
これらの実践により、共有境界付近のラベルが曖昧になり、カウント値が不正確に予測されます。
したがって、これらのフレームワーク内で CLIP を直接適用すると、最適なパフォーマンスが得られない可能性があります。
これらの課題に対処するために、私たちはまず拡張ブロックワイズ分類 (EBC) フレームワークを提案します。
以前の方法とは異なり、EBC は整数値のビンを利用し、ビン境界付近のあいまいさを効果的に軽減します。
さらに、カウント値の予測を改善するために、密度マップに基づく回帰損失が組み込まれています。
バックボーンに依存しない EBC フレームワーク内で、CLIP-EBC を導入して、このタスクに CLIP の認識機能を最大限に活用します。
広範な実験により、EBC の有効性と CLIP-EBC の競合パフォーマンスが実証されています。
具体的には、当社の EBC フレームワークは、UCF-QNRF データセットで既存の分類ベースの手法を最大 44.5% 改善でき、CLIP-EBC は NWPU-Crowd テスト セットで MAE 58.2 の最先端のパフォーマンスを達成します。
RMSE は 268.5 で、これまでの最良の方法である STEERER と比較して 8.6% および 13.3% の改善を示しています。
コードと重みは https://github.com/Yiming-M/CLIP-EBC で入手できます。

要約(オリジナル)

We propose CLIP-EBC, the first fully CLIP-based model for accurate crowd density estimation. While the CLIP model has demonstrated remarkable success in addressing recognition tasks such as zero-shot image classification, its potential for counting has been largely unexplored due to the inherent challenges in transforming a regression problem, such as counting, into a recognition task. In this work, we investigate and enhance CLIP’s ability to count, focusing specifically on the task of estimating crowd sizes from images. Existing classification-based crowd-counting frameworks have significant limitations, including the quantization of count values into bordering real-valued bins and the sole focus on classification errors. These practices result in label ambiguity near the shared borders and inaccurate prediction of count values. Hence, directly applying CLIP within these frameworks may yield suboptimal performance. To address these challenges, we first propose the Enhanced Blockwise Classification (EBC) framework. Unlike previous methods, EBC utilizes integer-valued bins, effectively reducing ambiguity near bin boundaries. Additionally, it incorporates a regression loss based on density maps to improve the prediction of count values. Within our backbone-agnostic EBC framework, we then introduce CLIP-EBC to fully leverage CLIP’s recognition capabilities for this task. Extensive experiments demonstrate the effectiveness of EBC and the competitive performance of CLIP-EBC. Specifically, our EBC framework can improve existing classification-based methods by up to 44.5% on the UCF-QNRF dataset, and CLIP-EBC achieves state-of-the-art performance on the NWPU-Crowd test set, with an MAE of 58.2 and an RMSE of 268.5, representing improvements of 8.6% and 13.3% over the previous best method, STEERER. The code and weights are available at https://github.com/Yiming-M/CLIP-EBC.

arxiv情報

著者 Yiming Ma,Victor Sanchez,Tanaya Guha
発行日 2024-08-16 11:10:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク