要約
Clip-EBCを提案します。Clip-EBCは、正確な群衆密度の推定のための最初の完全クリップベースのモデルです。
CLIPモデルは、ゼロショット画像分類などの認識タスクに対処することで顕著な成功を示していますが、カウントの可能性は、カウントなどの回帰問題を認識タスクに変換することに固有の課題により、ほとんど説明されていません。
この作業では、画像から群衆のサイズを推定するタスクに特に焦点を当てて、Clipのカウント能力を調査および強化します。
既存の分類ベースのクラウドカウントフレームワークには、カウント値の境界の実質ビンへの量子化や分類エラーに唯一の焦点を含む大きな制限があります。
これらの慣行は、共有境界の近くでラベルのあいまいさをもたらし、カウント値の不正確な予測をもたらします。
したがって、これらのフレームワーク内にクリップを直接適用すると、最適ではないパフォーマンスが得られる場合があります。
これらの課題に対処するために、最初に強化されたブロックワイズ分類(EBC)フレームワークを提案します。
以前の方法とは異なり、EBCは整数値ビンを利用して、ビンの境界近くの曖昧さを効果的に減らします。
さらに、密度マップに基づく回帰損失を組み込んで、カウント値の予測を改善します。
バックボーンに依存しないEBCフレームワーク内で、Clip-EBCを導入して、このタスクのClipの認識機能を完全に活用します。
広範な実験は、EBCの有効性とClip-EBCの競争力を示しています。
具体的には、当社のEBCフレームワークは、UCF-QNRFデータセットで既存の分類ベースの方法を最大44.5%改善でき、Clip-EBCはNWPU-Crowdテストセットで最先端のパフォーマンスを達成し、58.2のMAEとAN RMSEが268.5のAN RMSEを達成し、8.6%および13.3%の習慣を表しています。
コードと重みはhttps://github.com/yiming-m/clip-ebcで入手できます。
要約(オリジナル)
We propose CLIP-EBC, the first fully CLIP-based model for accurate crowd density estimation. While the CLIP model has demonstrated remarkable success in addressing recognition tasks such as zero-shot image classification, its potential for counting has been largely unexplored due to the inherent challenges in transforming a regression problem, such as counting, into a recognition task. In this work, we investigate and enhance CLIP’s ability to count, focusing specifically on the task of estimating crowd sizes from images. Existing classification-based crowd-counting frameworks have significant limitations, including the quantization of count values into bordering real-valued bins and the sole focus on classification errors. These practices result in label ambiguity near the shared borders and inaccurate prediction of count values. Hence, directly applying CLIP within these frameworks may yield suboptimal performance. To address these challenges, we first propose the Enhanced Blockwise Classification (EBC) framework. Unlike previous methods, EBC utilizes integer-valued bins, effectively reducing ambiguity near bin boundaries. Additionally, it incorporates a regression loss based on density maps to improve the prediction of count values. Within our backbone-agnostic EBC framework, we then introduce CLIP-EBC to fully leverage CLIP’s recognition capabilities for this task. Extensive experiments demonstrate the effectiveness of EBC and the competitive performance of CLIP-EBC. Specifically, our EBC framework can improve existing classification-based methods by up to 44.5% on the UCF-QNRF dataset, and CLIP-EBC achieves state-of-the-art performance on the NWPU-Crowd test set, with an MAE of 58.2 and an RMSE of 268.5, representing improvements of 8.6% and 13.3% over the previous best method, STEERER. The code and weights are available at https://github.com/Yiming-M/CLIP-EBC.
arxiv情報
著者 | Yiming Ma,Victor Sanchez,Tanaya Guha |
発行日 | 2025-03-25 16:47:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google