A Review and Implementation of Object Detection Models and Optimizations for Real-time Medical Mask Detection during the COVID-19 Pandemic

要約

畳み込みニューラル ネットワーク (CNN) は、精度が向上しているため、物体検出の問題によく使用されます。
それにもかかわらず、検出速度を考慮すると、CNN ベースの検出モデルのパフォーマンスは曖昧です。
私たちの知る限り、関連文献では、速度と精度のトレードオフの観点から利用可能な方法が十分に評価されていません。
この研究では、このトレードオフ、メモリ消費量、計算コストとストレージ コストに関して、Common Objects in Context (COCO) データセット上の最も基本的なオブジェクト検出モデルを評価します。
次に、YOLOv5 と呼ばれる高効率モデルを選択して、医療用マスクを着用した人間の顔の話題の未調査のデータセットである適切に着用されたマスク顔データセット (PWMFD) でトレーニングし、リアルタイムの医療用マスクの特定の最適化手法の利点を分析します。
検出: 転移学習、データ拡張、および圧縮と励起の注意メカニズム。
新型コロナウイルス感染症のパンデミックに関連した調査結果を使用して、状態の 2 倍以上の速度 (1 秒あたり 69 フレーム) を超える、正しく着用された医療用マスクと誤って着用された医療用マスクを検出するための転移学習を使用した、YOLOv5s に基づく最適化されたモデルを提案します。
同じレベルの平均平均精度 (67%) を維持しながら、PWMFD データセット上の最先端のモデル SE-YOLOv3。

要約(オリジナル)

Convolutional Neural Networks (CNN) are commonly used for the problem of object detection thanks to their increased accuracy. Nevertheless, the performance of CNN-based detection models is ambiguous when detection speed is considered. To the best of our knowledge, there has not been sufficient evaluation of the available methods in terms of the speed/accuracy trade-off in related literature. This work assesses the most fundamental object detection models on the Common Objects in Context (COCO) dataset with respect to this trade-off, their memory consumption, and computational and storage cost. Next, we select a highly efficient model called YOLOv5 to train on the topical and unexplored dataset of human faces with medical masks, the Properly-Wearing Masked Faces Dataset (PWMFD), and analyze the benefits of specific optimization techniques for real-time medical mask detection: transfer learning, data augmentations, and a Squeeze-and-Excitation attention mechanism. Using our findings in the context of the COVID-19 pandemic, we propose an optimized model based on YOLOv5s using transfer learning for the detection of correctly and incorrectly worn medical masks that surpassed more than two times in speed (69 frames per second) the state-of-the-art model SE-YOLOv3 on the PWMFD dataset while maintaining the same level of mean Average Precision (67%).

arxiv情報

著者 Ioanna Gogou,Dimitrios Koutsomitropoulos
発行日 2024-05-28 17:27:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク