CRCL: Causal Representation Consistency Learning for Anomaly Detection in Surveillance Videos

要約

ビデオアノマリー検出(VAD)は、情報の法医学や公共安全保護などの分野で有望なアプリケーションを備えた、ビデオ理解コミュニティにおける根本的でありながら手ごわいタスクのままです。
異常の希少性と多様性のため、既存の方法は、簡単に収集された通常のイベントのみを使用して、監視されていない方法で通常の空間的パターンの固有の正常性をモデル化します。
以前の研究では、既存の監視されていないVADモデルは、現実世界のシナリオでラベルに依存しないデータオフセット(シーンの変化など)が不可能であり、深いニューラルネットワークの過剰な一般化により光の異常に応答できない可能性があることが示されています。
因果関係の学習に触発されて、私たちは、定期的なイベントのプロトタイプパターンを適切に一般化し、異常なインスタンスが発生したときに重要な逸脱を提示できる因果要因が存在すると主張します。
この点で、因果表現の一貫性学習(CRCL)を提案して、監視されていないビデオ正規性学習において、潜在的なシーンに強い因果関係変数を暗黙的に採掘します。
具体的には、構造的因果モデルに基づいて、深い表現で絡み合ったシーンバイアスをそれぞれ取り除き、因果ビデオ正規性を学習するために、シーンデバイアス学習と因果関係に触発された正常性学習を提案します。
ベンチマークでの広範な実験は、従来の深い表現学習よりも方法の優位性を検証します。
さらに、アブレーション研究と拡張検証は、CRCLがマルチシーン設定のラベルに依存しないバイアスに対処し、利用可能なトレーニングデータのみで安定したパフォーマンスを維持できることを示しています。

要約(オリジナル)

Video Anomaly Detection (VAD) remains a fundamental yet formidable task in the video understanding community, with promising applications in areas such as information forensics and public safety protection. Due to the rarity and diversity of anomalies, existing methods only use easily collected regular events to model the inherent normality of normal spatial-temporal patterns in an unsupervised manner. Previous studies have shown that existing unsupervised VAD models are incapable of label-independent data offsets (e.g., scene changes) in real-world scenarios and may fail to respond to light anomalies due to the overgeneralization of deep neural networks. Inspired by causality learning, we argue that there exist causal factors that can adequately generalize the prototypical patterns of regular events and present significant deviations when anomalous instances occur. In this regard, we propose Causal Representation Consistency Learning (CRCL) to implicitly mine potential scene-robust causal variable in unsupervised video normality learning. Specifically, building on the structural causal models, we propose scene-debiasing learning and causality-inspired normality learning to strip away entangled scene bias in deep representations and learn causal video normality, respectively. Extensive experiments on benchmarks validate the superiority of our method over conventional deep representation learning. Moreover, ablation studies and extension validation show that the CRCL can cope with label-independent biases in multi-scene settings and maintain stable performance with only limited training data available.

arxiv情報

著者 Yang Liu,Hongjin Wang,Zepu Wang,Xiaoguang Zhu,Jing Liu,Peng Sun,Rui Tang,Jianwei Du,Victor C. M. Leung,Liang Song
発行日 2025-03-24 15:50:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク