要約
私たちは、ビデオレベルの監視のみを利用して、フレームレベルで監視ビデオの異常を検出および認識するという複雑な問題に取り組みます。
新しいメソッド AnomalyCLIP を紹介します。これは、CLIP などの Large Language and Vision (LLV) モデルとマルチ インスタンス学習を組み合わせてビデオの異常を共同検出および分類する最初のメソッドです。
私たちのアプローチには、特に、潜在的な CLIP 特徴空間を操作して正常なイベントの部分空間を特定することが含まれており、これにより、異常なイベントに対するテキスト主導の指示を効果的に学習できるようになります。
異常なフレームがこれらの方向に投影されるとき、それらが特定のクラスに属している場合、大きな特徴の大きさを示します。
また、計算効率の高い Transformer アーキテクチャを導入して、フレーム間の短期および長期の時間依存関係をモデル化し、最終的に最終的な異常スコアとクラス予測確率を生成します。
私たちは、ShanghaiTech、UCF-Crime、XD-Violence という 3 つの主要な異常検出ベンチマークを考慮して AnomalyCLIP を最先端の手法と比較し、ビデオ異常の認識においてベースラインを上回るパフォーマンスを示すことを経験的に示します。
要約(オリジナル)
We tackle the complex problem of detecting and recognising anomalies in surveillance videos at the frame level, utilising only video-level supervision. We introduce the novel method AnomalyCLIP, the first to combine Large Language and Vision (LLV) models, such as CLIP, with multiple instance learning for joint video anomaly detection and classification. Our approach specifically involves manipulating the latent CLIP feature space to identify the normal event subspace, which in turn allows us to effectively learn text-driven directions for abnormal events. When anomalous frames are projected onto these directions, they exhibit a large feature magnitude if they belong to a particular class. We also introduce a computationally efficient Transformer architecture to model short- and long-term temporal dependencies between frames, ultimately producing the final anomaly score and class prediction probabilities. We compare AnomalyCLIP against state-of-the-art methods considering three major anomaly detection benchmarks, i.e. ShanghaiTech, UCF-Crime, and XD-Violence, and empirically show that it outperforms baselines in recognising video anomalies.
arxiv情報
著者 | Luca Zanella,Benedetta Liberatori,Willi Menapace,Fabio Poiesi,Yiming Wang,Elisa Ricci |
発行日 | 2023-10-04 14:01:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google