Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection

要約

弱教師付きビデオ異常検出(WS-VAD)のほとんどのモデルは、異常のタイプを特定することなく、正常なスニペットと異常なスニペットを区別することを目的とした複数インスタンス学習に依存している。しかし、文脈によって異常の定義が曖昧であるため、異常と正常の識別が不正確になる可能性がある。何が異常であるかをモデルに示すために、イベントプロンプトから異常の疑いのあるものを学習するための新しいフレームワークを提案する。潜在的な異常イベントのテキストプロンプト辞書と、異常ビデオから生成されたキャプションが与えられた場合、各ビデオスニペットに対して疑われるイベントを識別するために、それらの間の意味的異常類似度を計算することができる。これにより、すべてのビデオにまたがる視覚的意味的特徴を制約する新しいマルチプロンプト学習プロセスが可能になるとともに、自己学習のための疑似異常のラベル付けを行う新しい方法が提供される。その有効性を実証するため、XD-Violence、UCF-Crime、TAD、ShanghaiTechの4つのデータセットを用いて包括的な実験と詳細なアブレーション研究を行った。提案モデルは、APやAUCの観点から、ほとんどの最先端手法を上回った(86.5%、 ⦿90.4}%、94.4%、97.4%)。さらに、オープンセットやクロスデータセットのケースでも有望な性能を示す。データ、コード、モデルは以下にある:\url{https://github.com/shiwoaz/lap}。

要約(オリジナル)

Most models for weakly supervised video anomaly detection (WS-VAD) rely on multiple instance learning, aiming to distinguish normal and abnormal snippets without specifying the type of anomaly. However, the ambiguous nature of anomaly definitions across contexts may introduce inaccuracy in discriminating abnormal and normal events. To show the model what is anomalous, a novel framework is proposed to guide the learning of suspected anomalies from event prompts. Given a textual prompt dictionary of potential anomaly events and the captions generated from anomaly videos, the semantic anomaly similarity between them could be calculated to identify the suspected events for each video snippet. It enables a new multi-prompt learning process to constrain the visual-semantic features across all videos, as well as provides a new way to label pseudo anomalies for self-training. To demonstrate its effectiveness, comprehensive experiments and detailed ablation studies are conducted on four datasets, namely XD-Violence, UCF-Crime, TAD, and ShanghaiTech. Our proposed model outperforms most state-of-the-art methods in terms of AP or AUC (86.5\%, \hl{90.4}\%, 94.4\%, and 97.4\%). Furthermore, it shows promising performance in open-set and cross-dataset cases. The data, code, and models can be found at: \url{https://github.com/shiwoaz/lap}.

arxiv情報

著者 Chenchen Tao,Xiaohao Peng,Chong Wang,Jiafei Wu,Puning Zhao,Jun Wang,Jiangbo Qian
発行日 2024-09-03 03:21:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク