Memory-augmented Online Video Anomaly Detection

要約

周囲の状況を理解する能力は、自動運転車 (AV) にとって最も重要です。
この論文では、車載カメラで撮影したビデオのみを利用して、AV の周囲で発生した異常に即座に対応する、オンライン方式で動作できるシステムを紹介します。
MOVAD と呼ばれる私たちのアーキテクチャは、2 つの主要なモジュールに依存しています。1 つは、Video Swin Transformer (VST) によって実装され、進行中のアクションに関連する情報を抽出するための短期メモリ モジュール、もう 1 つは分類器内に挿入され、次のことを考慮します。
また、LSTM (Long-Short Term Memory) ネットワークの使用により、過去の情報や行動のコンテキストもリモートに保存されます。
MOVAD の強みは、その優れたパフォーマンスだけでなく、その単純なモジュール式アーキテクチャにも関係しており、前提条件をできるだけ少なくして RGB フレームのみを使用してエンドツーエンド方式でトレーニングされているため、実装と再生が簡単です。
と。
私たちは、事故のダッシュボードカメラビデオの困難なコレクションである交通異常検出 (DoTA) データセットに対するメソッドのパフォーマンスを評価しました。
大規模なアブレーション研究の後、MOVAD は 82.17\% の AUC スコアに達することができ、現在の最先端技術を +2.87 AUC 上回ります。
私たちのコードは https://github.com/IMPLabUniPr/movad/tree/movad_vad で入手できます。

要約(オリジナル)

The ability to understand the surrounding scene is of paramount importance for Autonomous Vehicles (AVs). This paper presents a system capable to work in an online fashion, giving an immediate response to the arise of anomalies surrounding the AV, exploiting only the videos captured by a dash-mounted camera. Our architecture, called MOVAD, relies on two main modules: a Short-Term Memory Module to extract information related to the ongoing action, implemented by a Video Swin Transformer (VST), and a Long-Term Memory Module injected inside the classifier that considers also remote past information and action context thanks to the use of a Long-Short Term Memory (LSTM) network. The strengths of MOVAD are not only linked to its excellent performance, but also to its straightforward and modular architecture, trained in a end-to-end fashion with only RGB frames with as less assumptions as possible, which makes it easy to implement and play with. We evaluated the performance of our method on Detection of Traffic Anomaly (DoTA) dataset, a challenging collection of dash-mounted camera videos of accidents. After an extensive ablation study, MOVAD is able to reach an AUC score of 82.17\%, surpassing the current state-of-the-art by +2.87 AUC. Our code will be available on https://github.com/IMPLabUniPr/movad/tree/movad_vad

arxiv情報

著者 Leonardo Rossi,Vittorio Bernuzzi,Tomaso Fontanini,Massimo Bertozzi,Andrea Prati
発行日 2023-09-27 13:14:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68-02, 68-04, 68-06, 68T07, 68T10, 68T45, cs.AI, cs.CV, F.1.1 パーマリンク