Dual Memory Units with Uncertainty Regulation for Weakly Supervised Video Anomaly Detection

要約

異常なイベントを正常から効果的に分離するための識別機能を学習することは、弱教師ありビデオ異常検出 (WS-VAD) タスクにとって重要です。
ビデオおよびセグメントレベルのラベル指向の既存のアプローチは、主に異常データの表現を抽出することに重点を置いており、正常なデータの意味を無視しています。
このようなスキームは最適ではないことがわかります。つまり、異常をより適切に区別するには、正常な状態とは何かを理解する必要があり、誤警報率が高くなる可能性があります。
この問題に対処するために、通常のデータの表現と異常なデータの識別機能の両方を学習するために、Uncertainty Regulated Dual Memory Units (UR-DMU) モデルを提案します。
具体的には、グラフ畳み込みネットワークの従来のグローバルおよびローカル構造に着想を得て、Transformer ネットワークにグローバルおよびローカル マルチヘッド セルフ アテンション (GL-MHSA) モジュールを導入して、ビデオ内の関連付けをキャプチャするためのより表現力豊かな埋め込みを取得します。
次に、ハード サンプルに取り組むための 1 つの追加の異常なメモリである 2 つのメモリ バンクを使用して、異常なプロトタイプと正常なプロトタイプを保存および分離し、2 つの表現間のマージンを最大化します。
最後に、カメラの切り替え、オブジェクトの変更、シーンの変換などからのノイズに強い、通常のデータ潜在空間を学習するための不確実性学習スキームを提案します。
かなりのマージンによる最先端の方法。

要約(オリジナル)

Learning discriminative features for effectively separating abnormal events from normality is crucial for weakly supervised video anomaly detection (WS-VAD) tasks. Existing approaches, both video and segment-level label oriented, mainly focus on extracting representations for anomaly data while neglecting the implication of normal data. We observe that such a scheme is sub-optimal, i.e., for better distinguishing anomaly one needs to understand what is a normal state, and may yield a higher false alarm rate. To address this issue, we propose an Uncertainty Regulated Dual Memory Units (UR-DMU) model to learn both the representations of normal data and discriminative features of abnormal data. To be specific, inspired by the traditional global and local structure on graph convolutional networks, we introduce a Global and Local Multi-Head Self Attention (GL-MHSA) module for the Transformer network to obtain more expressive embeddings for capturing associations in videos. Then, we use two memory banks, one additional abnormal memory for tackling hard samples, to store and separate abnormal and normal prototypes and maximize the margins between the two representations. Finally, we propose an uncertainty learning scheme to learn the normal data latent space, that is robust to noise from camera switching, object changing, scene transforming, etc. Extensive experiments on XD-Violence and UCF-Crime datasets demonstrate that our method outperforms the state-of-the-art methods by a sizable margin.

arxiv情報

著者 Hang Zhou,Junqing Yu,Wei Yang
発行日 2023-02-10 10:39:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク