LGN-Net: Local-Global Normality Network for Video Anomaly Detection

要約

ビデオ異常検出 (VAD) は、インテリジェント ビデオ システムに応用できる可能性があるため、何年にもわたって集中的に研究されてきました。
既存の教師なし VAD メソッドは、通常のビデオのみで構成されるトレーニング セットから正規性を学習し、そのような正規性から逸脱したインスタンスを異常と見なす傾向があります。
ただし、ローカルまたはグローバルな正規性のみを考慮することがよくあります。
それらのいくつかは、通常のイベントの表現を強化するために、ビデオ クリップの連続するフレームから局所的な時空間表現を学習することに焦点を当てています。
しかし、強力な表現により、これらのメソッドはいくつかの異常を表すことができ、検出漏れの原因となります。
対照的に、他の方法は、異常の一般化を弱めるために、トレーニング ビデオ全体のグローバルな原型パターンを記憶することに専念しています。これはまた、それらが多様な正常パターンを表すことを制限し、誤警報を引き起こします。
この目的のために、ローカルとグローバルの正規性を同時に学習するための 2 分岐モデル、Local-Global Normality Network (LGN-Net) を提案します。
具体的には、時空間予測ネットワークを利用して、連続するフレームから見え方や動きの進化規則性を局所正規性として学習する枝と、動画全体のプロトタイプ特徴を大域正規性としてメモリモジュールに記憶する枝です。
LGN-Net は、ローカルな正常性とグローバルな正常性を融合することで、正常なインスタンスと異常なインスタンスを表現するバランスを実現します。
融合された正規性により、単一の正規性を利用する場合と比較して、さまざまなシーンにモデルをより一般化できます。
実験は、私たちの方法の有効性と優れた性能を示しています。
コードはオンラインで入手できます: https://github.com/Myzhao1999/LGN-Net。

要約(オリジナル)

Video anomaly detection (VAD) has been intensively studied for years because of its potential applications in intelligent video systems. Existing unsupervised VAD methods tend to learn normality from training sets consisting of only normal videos and regard instances deviating from such normality as anomalies. However, they often consider only local or global normality. Some of them focus on learning local spatiotemporal representations from consecutive frames in video clips to enhance the representation for normal events. But powerful representation allows these methods to represent some anomalies and causes missed detections. In contrast, the other methods are devoted to memorizing global prototypical patterns of whole training videos to weaken the generalization for anomalies, which also restricts them to represent diverse normal patterns and causes false alarms. To this end, we propose a two-branch model, Local-Global Normality Network (LGN-Net), to learn local and global normality simultaneously. Specifically, one branch learns the evolution regularities of appearance and motion from consecutive frames as local normality utilizing a spatiotemporal prediction network, while the other branch memorizes prototype features of the whole videos as global normality by a memory module. LGN-Net achieves a balance of representing normal and abnormal instances by fusing local and global normality. The fused normality enables our model more generalized to various scenes compared to exploiting single normality. Experiments demonstrate the effectiveness and superior performance of our method. The code is available online: https://github.com/Myzhao1999/LGN-Net.

arxiv情報

著者 Mengyang Zhao,Xinhua Zeng,Jing Liu,Di Li,Chengxin Pang,Yang Liu
発行日 2022-11-21 14:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク