この論文は、Othello 社と LIASD 研究室との間の CIFRE 契約の一部です。
目的は、ビデオ ストリーム内の危険をリアルタイムで検出できる人工知能システムを開発することです。
多数のニューラル ネットワーク モデルがテストされ、そのうち 3 つが選択されました。
You Only Looks Once (YOLO) が空間分析に、VGG19 と Gated Recurrent Unit (GRU) で構成される畳み込み再帰ニューロン ネットワーク (CRNN) が時間分析に、多層パーセプトロンが分類に使用されています。
パラレル モードの方が高速ですが、一般にシリアル モードの方が信頼性が高くなります。
これらのモデルのトレーニングには教師あり学習が選択され、2 つの独自のデータセットが作成されました。
最初のデータセットは、異常において潜在的な役割を果たす可能性のある物体に焦点を当てており、2 番目のデータセットは、異常または非異常を含むビデオで構成されています。
このアプローチにより、連続ビデオ ストリームと有限ビデオの両方の処理が可能になり、検出の柔軟性が向上します。
This thesis is part of a CIFRE agreement between the company Othello and the LIASD laboratory. The objective is to develop an artificial intelligence system that can detect real-time dangers in a video stream. To achieve this, a novel approach combining temporal and spatial analysis has been proposed. Several avenues have been explored to improve anomaly detection by integrating object detection, human pose detection, and motion analysis. For result interpretability, techniques commonly used for image analysis, such as activation and saliency maps, have been extended to videos, and an original method has been proposed. The proposed architecture performs binary or multiclass classification depending on whether an alert or the cause needs to be identified. Numerous neural networkmodels have been tested, and three of them have been selected. You Only Looks Once (YOLO) has been used for spatial analysis, a Convolutional Recurrent Neuronal Network (CRNN) composed of VGG19 and a Gated Recurrent Unit (GRU) for temporal analysis, and a multi-layer perceptron for classification. These models handle different types of data and can be combined in parallel or in series. Although the parallel mode is faster, the serial mode is generally more reliable. For training these models, supervised learning was chosen, and two proprietary datasets were created. The first dataset focuses on objects that may play a potential role in anomalies, while the second consists of videos containing anomalies or non-anomalies. This approach allows for the processing of both continuous video streams and finite videos, providing greater flexibility in detection.
著者 | Fabien Poirier |
発行日 | 2024-11-29 14:24:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google