COVID-19 Monitoring System using Social Distancing and Face Mask Detection on Surveillance video datasets

要約

現在、COVID-19 ウイルスの恐怖と危険は依然として大きい。
社会的距離の基準を手動で監視することは、大勢の人が移動し、それらを管理するためのタスクフォースとリソースが不十分であるため、現実的ではありません。
このプロセスを自動化する、軽量で堅牢な年中無休のビデオ監視システムが必要です。
このホワイト ペーパーでは、オブジェクト検出、クラスタリング、および畳み込みニューラル ネットワーク (CNN) ベースのバイナリ分類器を使用して、人物検出、社会的距離違反の検出、顔検出、およびフェイス マスク分類を実行するための包括的かつ効果的なソリューションを提案します。
このため、YOLOv3、ノイズを含むアプリケーションの密度ベースの空間クラスタリング (DBSCAN)、Dual Shot Face Detector (DSFD)、および MobileNetV2 ベースのバイナリ分類器が監視ビデオ データセットに採用されています。
このペーパーでは、さまざまな顔検出モデルと顔マスク分類モデルの比較研究も提供します。
最後に、コミュニティ内のデータセットの不足を補うために、ラベル付けされたビデオ データセットと共にビデオ データセットのラベル付け方法が提案され、システムの評価に使用されます。
システムのパフォーマンスは、精度、F1 スコア、および予測時間の観点から評価されます。予測時間は、実用化のために低くする必要があります。
システムは、ラベル付けされたビデオ データセットに対して 91.2% の精度と 90.79% の F1 スコアで動作し、ビデオの 78 フレームに対して平均予測時間は 7.12 秒です。

要約(オリジナル)

In the current times, the fear and danger of COVID-19 virus still stands large. Manual monitoring of social distancing norms is impractical with a large population moving about and with insufficient task force and resources to administer them. There is a need for a lightweight, robust and 24X7 video-monitoring system that automates this process. This paper proposes a comprehensive and effective solution to perform person detection, social distancing violation detection, face detection and face mask classification using object detection, clustering and Convolution Neural Network (CNN) based binary classifier. For this, YOLOv3, Density-based spatial clustering of applications with noise (DBSCAN), Dual Shot Face Detector (DSFD) and MobileNetV2 based binary classifier have been employed on surveillance video datasets. This paper also provides a comparative study of different face detection and face mask classification models. Finally, a video dataset labelling method is proposed along with the labelled video dataset to compensate for the lack of dataset in the community and is used for evaluation of the system. The system performance is evaluated in terms of accuracy, F1 score as well as the prediction time, which has to be low for practical applicability. The system performs with an accuracy of 91.2% and F1 score of 90.79% on the labelled video dataset and has an average prediction time of 7.12 seconds for 78 frames of a video.

arxiv情報

著者 Sahana Srinivasan,Rujula Singh R,Ruchita R Biradar,Revathi SA
発行日 2022-12-16 15:45:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク