要約
弱教師付きビデオ異常検出(WS-VAD)のほとんどのモデルは、異常のタイプを特定することなく、正常なスニペットと異常なスニペットを区別することを目的とした複数インスタンス学習に依存している。コンテキスト間の異常定義の曖昧さは、異常バッグ内の異常スニペットと正常スニペットの検出にバイアスをもたらす。なぜそれが異常なのかをモデルに示すための第一歩として、イベントプロンプトから異常の疑いのあるスニペットを学習するための新しいフレームワークを提案する。潜在的な異常イベントのテキストプロンプト辞書と、異常動画から生成されたキャプションが与えられた場合、各動画スニペットについて異常の疑いのあるイベントを特定するために、それらの間の意味的な異常類似度を計算することができる。これにより、すべてのビデオにまたがる視覚的意味的特徴を制約する新しいマルチプロンプト学習プロセスが可能になるとともに、自己学習のために擬似的な異常をラベル付けする新しい方法が提供される。その有効性を実証するために、XD-Violence、UCF-Crime、TAD、ShanghaiTechの4つのデータセットを用いて包括的な実験と詳細なアブレーション研究を行った。提案モデルは、APやAUCの観点から、ほとんどの最先端手法を上回る(82.6%、87.7%、93.1%、97.4%)。さらに、オープンセットやクロスデータセットのケースでも有望な性能を示す。
要約(オリジナル)
Most models for weakly supervised video anomaly detection (WS-VAD) rely on multiple instance learning, aiming to distinguish normal and abnormal snippets without specifying the type of anomaly. The ambiguous nature of anomaly definitions across contexts introduces bias in detecting abnormal and normal snippets within the abnormal bag. Taking the first step to show the model why it is anomalous, a novel framework is proposed to guide the learning of suspected anomalies from event prompts. Given a textual prompt dictionary of potential anomaly events and the captions generated from anomaly videos, the semantic anomaly similarity between them could be calculated to identify the suspected anomalous events for each video snippet. It enables a new multi-prompt learning process to constrain the visual-semantic features across all videos, as well as provides a new way to label pseudo anomalies for self-training. To demonstrate effectiveness, comprehensive experiments and detailed ablation studies are conducted on four datasets, namely XD-Violence, UCF-Crime, TAD, and ShanghaiTech. Our proposed model outperforms most state-of-the-art methods in terms of AP or AUC (82.6\%, 87.7\%, 93.1\%, and 97.4\%). Furthermore, it shows promising performance in open-set and cross-dataset cases.
arxiv情報
著者 | Chenchen Tao,Chong Wang,Yuexian Zou,Xiaohao Peng,Jiafei Wu,Jiangbo Qian |
発行日 | 2024-03-02 10:42:47+00:00 |
arxivサイト | arxiv_id(pdf) |