要約
密度推定を使用した自動群衆カウントは、コンピューター ビジョンの研究で大きな注目を集めています。
その結果、ここ数年で、畳み込みニューラル ネットワーク (CNN) を使用した多数の群衆カウントおよび密度推定モデルが公開されました。
これらのモデルは、ベンチマーク データセットよりも優れた精度を達成しています。
ただし、精度を向上させようとすると、これらのモデルの複雑さが増すことがよくあります。
コンピューティング リソースが限られているドローンを使用したリアルタイム ビデオ監視アプリケーションでは、ディープ モデルは耐えられないほど長い推論遅延を招きます。
この論文では、(i)リアルタイムビデオ監視のための軽量群集密度推定モデル(LCDnet)、および(ii)カリキュラム学習(CL)を使用した改善されたトレーニング方法を提案します。
LCDnet は CL を使用してトレーニングされ、DroneRGBT と CARPK の 2 つのベンチマーク データセットで評価されます。
結果は、既存の群集モデルと比較されます。
私たちの評価では、LCDnet がかなり高い精度を達成しながら、推論時間とメモリ要件を大幅に削減し、非常に限られたコンピューティング リソースでエッジ デバイスに展開できることを示しています。
要約(オリジナル)
Automatic crowd counting using density estimation has gained significant attention in computer vision research. As a result, a large number of crowd counting and density estimation models using convolution neural networks (CNN) have been published in the last few years. These models have achieved good accuracy over benchmark datasets. However, attempts to improve the accuracy often lead to higher complexity in these models. In real-time video surveillance applications using drones with limited computing resources, deep models incur intolerable higher inference delay. In this paper, we propose (i) a Lightweight Crowd Density estimation model (LCDnet) for real-time video surveillance, and (ii) an improved training method using curriculum learning (CL). LCDnet is trained using CL and evaluated over two benchmark datasets i.e., DroneRGBT and CARPK. Results are compared with existing crowd models. Our evaluation shows that the LCDnet achieves a reasonably good accuracy while significantly reducing the inference time and memory requirement and thus can be deployed over edge devices with very limited computing resources.
arxiv情報
著者 | Muhammad Asif Khan,Hamid Menouar,Ridha Hamila |
発行日 | 2023-02-10 16:52:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google