A Background-Agnostic Framework with Adversarial Training for Abnormal Event Detection in Video

要約

【タイトル】
ビデオにおける異常イベントの検出のための背景に依存しない枠組みと敵対的トレーニング

【要約】
・ビデオにおける異常イベントの検出は、周囲の文脈に依存する、滅多に発生しないイベントを異常と定義することから、複雑なコンピュータビジョンの問題となっている。
・異常イベント検出を外れ値検出として定式化することから、背景に依存しない枠組みを提案する。
・トレーニングビデオには、正常なイベントのみが含まれている。
・この枠組みは、オブジェクト検出器、外見と動きのオートエンコーダーのセット、および分類器で構成されている。
・オブジェクト検出だけを見るため、提供されるシーンが異なっても、ノーマルイベントが同じに定義され、単一の主要な変数が背景である場合に適用できる。
・トレーニング中の異常データの不足を克服するために、オートエンコーダーの敵対的な学習戦略を提案する。
・敵対的学習により、領域不明の疑似異常例を作成し、これをオートエンコーダーで正しく再構築して、疑似異常例に勾配上昇を適用する。
・更に、外見ベースと動きベースのバイナリ分類器のトレーニングで、異常と正常の潜在的な特徴と再構成を区別するために、疑似異常例を異常例として使用する。
・4つのベンチマークデータセットで、既存の手法と比較して、この枠組みがすべてのデータセットで有利なパフォーマンスを達成する結果を示す。
・また、ShanghaiTechとSubwayという2つの大規模な異常イベント検出データセットに対して領域ベースとトラックベースのアノテーションを提供する。

要約(オリジナル)

Abnormal event detection in video is a complex computer vision problem that has attracted significant attention in recent years. The complexity of the task arises from the commonly-adopted definition of an abnormal event, that is, a rarely occurring event that typically depends on the surrounding context. Following the standard formulation of abnormal event detection as outlier detection, we propose a background-agnostic framework that learns from training videos containing only normal events. Our framework is composed of an object detector, a set of appearance and motion auto-encoders, and a set of classifiers. Since our framework only looks at object detections, it can be applied to different scenes, provided that normal events are defined identically across scenes and that the single main factor of variation is the background. To overcome the lack of abnormal data during training, we propose an adversarial learning strategy for the auto-encoders. We create a scene-agnostic set of out-of-domain pseudo-abnormal examples, which are correctly reconstructed by the auto-encoders before applying gradient ascent on the pseudo-abnormal examples. We further utilize the pseudo-abnormal examples to serve as abnormal examples when training appearance-based and motion-based binary classifiers to discriminate between normal and abnormal latent features and reconstructions. We compare our framework with the state-of-the-art methods on four benchmark data sets, using various evaluation metrics. Compared to existing methods, the empirical results indicate that our approach achieves favorable performance on all data sets. In addition, we provide region-based and track-based annotations for two large-scale abnormal event detection data sets from the literature, namely ShanghaiTech and Subway.

arxiv情報

著者 Mariana-Iuliana Georgescu,Radu Tudor Ionescu,Fahad Shahbaz Khan,Marius Popescu,Mubarak Shah
発行日 2023-04-06 15:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, eess.IV パーマリンク