Evaluating Supervision Levels Trade-Offs for Infrared-Based People Counting

要約

物体検出モデルは、多くのアプリケーションで人数カウント (および位置特定) によく使用されますが、トレーニングには高価な境界ボックス アノテーションを含むデータセットが必要です。
人数カウントにおけるプライバシーの重要性を考慮すると、これらのモデルは赤外線画像にますます依存しており、タスクはさらに困難になっています。
この論文では、弱いレベルの監視が、画像分類とポイントレベルの位置特定のためのディープ人数カウントアーキテクチャのパフォーマンスにどのような影響を与える可能性があるかを調査します。
私たちの実験によると、CNN 画像レベル モデルを使用して人数をカウントすると、YOLO 検出器やポイントレベル モデルと競合する結果が得られ、さらに高いフレーム レートと同量のモデル パラメーターが提供されることがわかりました。

要約(オリジナル)

Object detection models are commonly used for people counting (and localization) in many applications but require a dataset with costly bounding box annotations for training. Given the importance of privacy in people counting, these models rely more and more on infrared images, making the task even harder. In this paper, we explore how weaker levels of supervision can affect the performance of deep person counting architectures for image classification and point-level localization. Our experiments indicate that counting people using a CNN Image-Level model achieves competitive results with YOLO detectors and point-level models, yet provides a higher frame rate and a similar amount of model parameters.

arxiv情報

著者 David Latortue,Moetez Kdayem,Fidel A Guerrero Peña,Eric Granger,Marco Pedersoli
発行日 2023-11-20 18:02:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク