A Lightweight Video Anomaly Detection Model with Weak Supervision and Adaptive Instance Selection

要約

ビデオ異常検出は、与えられたビデオに異常なイベント、行動、またはオブジェクトがあるかどうかを判断することであり、効果的でインテリジェントな公共安全管理を可能にする。ビデオ異常ラベリングは時間とコストがかかるため、既存の研究では教師なしまたは弱い教師ありの学習方法を採用している。本論文では、弱教師付きビデオ異常検出に焦点を当て、トレーニングビデオに異常が含まれているか否かのラベル付けを行うが、どのフレームに異常があるかについての情報はない。しかし、弱くラベル付けされたデータの不確実性と大きなモデルサイズにより、既存の手法は実際のシナリオ、特にエッジコンピューティングのようなリソースの限られた状況で広く展開することができない。本論文では、軽量なビデオ異常検知モデルを開発する。一方では、適応的なインスタンス選択戦略を提案する。これは、モデルの現在の状態に基づいて、信頼できるインスタンスを選択することで、ラベル付けが弱いデータの不確実性を緩和し、モデルの性能を向上させる。一方、モデルを構築するために、軽量な多レベル時間相関注意モジュールと砂時計型完全連結層を設計し、モデルパラメータを既存手法(例えばRTFM)のわずか0.56%に削減することができる。UCF-CrimeとShanghaiTechの2つの公開データセットを用いた広範な実験により、我々のモデルが、モデルパラメータ数を大幅に削減しながら、最先端の手法と比較して同等、あるいはそれ以上のAUCスコアを達成できることが示された。

要約(オリジナル)

Video anomaly detection is to determine whether there are any abnormal events, behaviors or objects in a given video, which enables effective and intelligent public safety management. As video anomaly labeling is both time-consuming and expensive, most existing works employ unsupervised or weakly supervised learning methods. This paper focuses on weakly supervised video anomaly detection, in which the training videos are labeled whether or not they contain any anomalies, but there is no information about which frames the anomalies are located. However, the uncertainty of weakly labeled data and the large model size prevent existing methods from wide deployment in real scenarios, especially the resource-limit situations such as edge-computing. In this paper, we develop a lightweight video anomaly detection model. On the one hand, we propose an adaptive instance selection strategy, which is based on the model’s current status to select confident instances, thereby mitigating the uncertainty of weakly labeled data and subsequently promoting the model’s performance. On the other hand, we design a lightweight multi-level temporal correlation attention module and an hourglass-shaped fully connected layer to construct the model, which can reduce the model parameters to only 0.56\% of the existing methods (e.g. RTFM). Our extensive experiments on two public datasets UCF-Crime and ShanghaiTech show that our model can achieve comparable or even superior AUC score compared to the state-of-the-art methods, with a significantly reduced number of model parameters.

arxiv情報

著者 Yang Wang,Jiaogen Zhou,Jihong Guan
発行日 2024-07-05 15:50:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク