Evaluating Supervision Levels Trade-Offs for Infrared-Based People Counting


物体検出モデルは、多くのアプリケーションで人数カウント (および位置特定) によく使用されますが、トレーニングには高価な境界ボックス アノテーションを含むデータセットが必要です。
私たちの実験によると、CNN 画像レベル モデルを使用して人数をカウントすると、YOLO 検出器やポイントレベル モデルと競合する結果が得られ、さらに高いフレーム レートと同量のモデル パラメーターが提供されることがわかりました。


Object detection models are commonly used for people counting (and localization) in many applications but require a dataset with costly bounding box annotations for training. Given the importance of privacy in people counting, these models rely more and more on infrared images, making the task even harder. In this paper, we explore how weaker levels of supervision can affect the performance of deep person counting architectures for image classification and point-level localization. Our experiments indicate that counting people using a CNN Image-Level model achieves competitive results with YOLO detectors and point-level models, yet provides a higher frame rate and a similar amount of model parameters.


著者 David Latortue,Moetez Kdayem,Fidel A Guerrero Peña,Eric Granger,Marco Pedersoli
発行日 2023-11-20 18:02:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク