Anomaly detection in surveillance videos using transformer based attention model

要約

監視カメラの映像は、現実的な異常を幅広く捉えることができる。この研究では、時間がかかる学習映像の異常セグメントの注釈を避けるために、弱教師付き戦略を使用することを提案している。このアプローチでは、フレームレベルの異常スコアを得るために、ビデオレベルのラベルのみが使用される。弱教師付きビデオ異常検出(WSVAD)は、学習プロセス中に異常と正常のインスタンスを間違って識別してしまうという問題を抱えている。そのため、利用可能な動画からより質の高い特徴を抽出することが重要である。このような動機から、本論文では、時間領域における長距離および短距離依存性を捉えるために、拡張畳み込みと自己注意に基づく注意層に続いて、Videoswin Featuresと名付けたより質の高い変換器ベースの特徴を使用する。これにより、利用可能なビデオに対するより良い理解が得られる。提案するフレームワークは、実世界のデータセットであるShanghaiTech Campusデータセットで検証され、現在の最先端手法よりも優れた性能を示すことが分かった。モデルとコードは https://github.com/kapildeshpande/Anomaly-Detection-in-Surveillance-Videos で公開されています。

要約(オリジナル)

Surveillance footage can catch a wide range of realistic anomalies. This research suggests using a weakly supervised strategy to avoid annotating anomalous segments in training videos, which is time consuming. In this approach only video level labels are used to obtain frame level anomaly scores. Weakly supervised video anomaly detection (WSVAD) suffers from the wrong identification of abnormal and normal instances during the training process. Therefore it is important to extract better quality features from the available videos. WIth this motivation, the present paper uses better quality transformer-based features named Videoswin Features followed by the attention layer based on dilated convolution and self attention to capture long and short range dependencies in temporal domain. This gives us a better understanding of available videos. The proposed framework is validated on real-world dataset i.e. ShanghaiTech Campus dataset which results in competitive performance than current state-of-the-art methods. The model and the code are available at https://github.com/kapildeshpande/Anomaly-Detection-in-Surveillance-Videos

arxiv情報

著者 Kapil Deshpande,Narinder Singh Punn,Sanjay Kumar Sonbhadra,Sonali Agarwal
発行日 2022-06-06 10:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク