要約
この論文は、Othello 社と LIASD 研究室との間の CIFRE 契約の一部です。
目的は、ビデオ ストリーム内の危険をリアルタイムで検出できる人工知能システムを開発することです。
これを達成するために、時間分析と空間分析を組み合わせた新しいアプローチが提案されています。
物体検出、人間の姿勢検出、動作分析を統合することで、異常検出を改善するためのいくつかの方法が検討されています。
結果の解釈性を高めるために、活性化マップや顕著性マップなど画像解析で一般的に使用される手法を動画にも拡張し、独自の手法を提案しました。
提案されたアーキテクチャは、アラートまたは原因を特定する必要があるかどうかに応じて、バイナリまたはマルチクラス分類を実行します。
多数のニューラル ネットワーク モデルがテストされ、そのうち 3 つが選択されました。
You Only Looks Once (YOLO) が空間分析に、VGG19 と Gated Recurrent Unit (GRU) で構成される畳み込み再帰ニューロン ネットワーク (CRNN) が時間分析に、多層パーセプトロンが分類に使用されています。
これらのモデルはさまざまなタイプのデータを処理し、並列または直列に組み合わせることができます。
パラレル モードの方が高速ですが、一般にシリアル モードの方が信頼性が高くなります。
これらのモデルのトレーニングには教師あり学習が選択され、2 つの独自のデータセットが作成されました。
最初のデータセットは、異常において潜在的な役割を果たす可能性のある物体に焦点を当てており、2 番目のデータセットは、異常または非異常を含むビデオで構成されています。
このアプローチにより、連続ビデオ ストリームと有限ビデオの両方の処理が可能になり、検出の柔軟性が向上します。
要約(オリジナル)
This thesis is part of a CIFRE agreement between the company Othello and the LIASD laboratory. The objective is to develop an artificial intelligence system that can detect real-time dangers in a video stream. To achieve this, a novel approach combining temporal and spatial analysis has been proposed. Several avenues have been explored to improve anomaly detection by integrating object detection, human pose detection, and motion analysis. For result interpretability, techniques commonly used for image analysis, such as activation and saliency maps, have been extended to videos, and an original method has been proposed. The proposed architecture performs binary or multiclass classification depending on whether an alert or the cause needs to be identified. Numerous neural networkmodels have been tested, and three of them have been selected. You Only Looks Once (YOLO) has been used for spatial analysis, a Convolutional Recurrent Neuronal Network (CRNN) composed of VGG19 and a Gated Recurrent Unit (GRU) for temporal analysis, and a multi-layer perceptron for classification. These models handle different types of data and can be combined in parallel or in series. Although the parallel mode is faster, the serial mode is generally more reliable. For training these models, supervised learning was chosen, and two proprietary datasets were created. The first dataset focuses on objects that may play a potential role in anomalies, while the second consists of videos containing anomalies or non-anomalies. This approach allows for the processing of both continuous video streams and finite videos, providing greater flexibility in detection.
arxiv情報
著者 | Fabien Poirier |
発行日 | 2024-11-29 14:24:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google