MCNet: A crowd denstity estimation network based on integrating multiscale attention module

要約

地下鉄ビデオ監視システムが地下鉄混雑密度推定問題を効果的に解決できないことを目的として、乗客の混雑密度レベルを自動的に分類するための地下鉄混雑密度推定ネットワーク(MCNetと呼ばれる)が提案されている。
まず、群衆テクスチャ特徴の特性に適応するために意味論的な群衆テクスチャ特徴を抽出する単純な分類器の能力を強化するために、統合マルチスケール アテンション (IMA) モジュールが提案されます。
IMA モジュールの革新性は、拡張畳み込み、マルチスケール特徴抽出、およびアテンション メカニズムを融合して、より低い計算コストでより大きな受容野からマルチスケール群集特徴の活性化を取得し、最上位層の畳み込み特徴の群集活性化状態を強化することです。

第二に、新しい軽量の群集テクスチャ特徴抽出ネットワークが提案されています。これは、ビデオ フレームを直接処理し、群集密度推定のためのテクスチャ特徴を自動的に抽出できます。また、画像処理速度が速く、ネットワーク パラメータが少ないため、限られた機能を持つ組み込みプラットフォームに柔軟に導入できます。
ハードウェアリソース。
最後に、この論文は、IMA モジュールと軽量群集テクスチャ特徴抽出ネットワークを統合して MCNet を構築し、画像分類データセット: Cifar10 と 4 つの群集密度データセット: PETS2009、Mall、QUT、SH_METRO でこのネットワークの実現可能性を検証して、MCNet を検証します。
高密度、高オクルージョン、遠近法の歪み、限られたハードウェア リソースなどの画像処理の課題がある地下鉄ビデオ監視における群集密度推定に適したソリューションとなり得るかどうか。

要約(オリジナル)

Aiming at the metro video surveillance system has not been able to effectively solve the metro crowd density estimation problem, a Metro Crowd density estimation Network (called MCNet) is proposed to automatically classify crowd density level of passengers. Firstly, an Integrating Multi-scale Attention (IMA) module is proposed to enhance the ability of the plain classifiers to extract semantic crowd texture features to accommodate to the characteristics of the crowd texture feature. The innovation of the IMA module is to fuse the dilation convolution, multiscale feature extraction and attention mechanism to obtain multi-scale crowd feature activation from a larger receptive field with lower computational cost, and to strengthen the crowds activation state of convolutional features in top layers. Secondly, a novel lightweight crowd texture feature extraction network is proposed, which can directly process video frames and automatically extract texture features for crowd density estimation, while its faster image processing speed and fewer network parameters make it flexible to be deployed on embedded platforms with limited hardware resources. Finally, this paper integrates IMA module and the lightweight crowd texture feature extraction network to construct the MCNet, and validate the feasibility of this network on image classification dataset: Cifar10 and four crowd density datasets: PETS2009, Mall, QUT and SH_METRO to validate the MCNet whether can be a suitable solution for crowd density estimation in metro video surveillance where there are image processing challenges such as high density, high occlusion, perspective distortion and limited hardware resources.

arxiv情報

著者 Qiang Guo,Rubo Zhang,Di Zhao
発行日 2024-03-29 13:40:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク