Memory-augmented Online Video Anomaly Detection

要約

周囲のシーンを理解する能力は、自動運転車 (AV) にとって最も重要です。
このホワイト ペーパーでは、ダッシュ ボードに取り付けられたカメラでキャプチャされたビデオのみを利用して、リアルタイムの保証された応答時間とオンライン方式で動作し、AV を取り巻く異常の発生に即座に対応できるシステムを紹介します。
MOVAD と呼ばれる私たちのアーキテクチャは、2 つの主要なモジュールに依存しています: オンライン シナリオで動作するように適合された Video Swin Transformer によって実装される、進行中のアクションに関連する情報を抽出するための短期記憶モジュールと、
Long-Short Term Memory (LSTM) ネットワークの使用により、過去の情報をリモートで取得できます。
ダッシュボードに取り付けられた事故のカメラビデオの挑戦的なコレクションである交通異常の検出 (DoTA) データセットでの方法のパフォーマンスを評価しました。
大規模なアブレーション研究の後、MOVAD は 82.11% の AUC スコアに達することができ、現在の最先端を +2.81 AUC 上回っています。
コードは https://github.com/IMPLabUniPr/movad/tree/icip で入手できます。

要約(オリジナル)

The ability to understand the surrounding scene is of paramount importance for Autonomous Vehicles (AVs). This paper presents a system capable to work in a real time guaranteed response times and online fashion, giving an immediate response to the arise of anomalies surrounding the AV, exploiting only the videos captured by a dash-mounted camera. Our architecture, called MOVAD, relies on two main modules: a short-term memory to extract information related to the ongoing action, implemented by a Video Swin Transformer adapted to work in an online scenario, and a long-term memory module that considers also remote past information thanks to the use of a Long-Short Term Memory (LSTM) network. We evaluated the performance of our method on Detection of Traffic Anomaly (DoTA) dataset, a challenging collection of dash-mounted camera videos of accidents. After an extensive ablation study, MOVAD is able to reach an AUC score of 82.11%, surpassing the current state-of-the-art by +2.81 AUC. Our code will be available on https://github.com/IMPLabUniPr/movad/tree/icip

arxiv情報

著者 Leonardo Rossi,Vittorio Bernuzzi,Tomaso Fontanini,Massimo Bertozzi,Andrea Prati
発行日 2023-02-21 15:14:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68-02, 68-04, 68-06, 68T07, 68T10, 68T45, cs.AI, cs.CV, F.1.1 パーマリンク