要約
ビデオアノマリー検出(VAD)は、ビデオで予期しないイベントを特定することを目的としており、安全性が批判的なドメインで幅広いアプリケーションを持っています。
通常のサンプルのみで訓練された半監視方法は牽引力を獲得していますが、多くの場合、誤報率が高く、解釈が不十分です。
最近、ビジョン言語モデル(VLM)は強力なマルチモーダル推論機能を実証し、説明可能な異常検出の新しい機会を提供しています。
ただし、それらの高い計算コストとドメイン適応の欠如は、リアルタイムの展開と信頼性を妨げています。
人間の視覚的知覚における二重の補完的な経路に触発されて、私たちは、急速な異常検出器を遅い異常検出器(つまり検索拡張生成(RAG)強化VLM)と統合するハイブリッドフレームワークであるSlowFastVadを提案し、これらの制限に対処します。
具体的には、Fast Detectorは最初に粗い異常信頼スコアを提供し、ビデオ全体ではなく、あいまいなセグメントの小さなサブセットのみを提供しますが、精巧な検出と推論のために、より遅いさらに解釈可能なVLMによってさらに分析されます。
さらに、VLMSをドメイン固有のVADシナリオに適応させるために、VLMSによって推測される通常のサンプルや異常なパターンに基づいた通常のパターンを含む知識ベースを構築します。
推論中、関連するパターンが取得され、異常推論のプロンプトを増強するために使用されます。
最後に、高速および遅い検出器の異常な信頼をスムーズに融合して、異常検出の堅牢性を高めます。
4つのベンチマークでの広範な実験は、SlowFastVADが高速検出器と遅い検出器の両方の強度を効果的に組み合わせており、計算オーバーヘッドが大幅に低下して顕著な検出精度と解釈性を達成し、高い信頼性要件を備えた実際のVADアプリケーションに適していることを示しています。
要約(オリジナル)
Video anomaly detection (VAD) aims to identify unexpected events in videos and has wide applications in safety-critical domains. While semi-supervised methods trained on only normal samples have gained traction, they often suffer from high false alarm rates and poor interpretability. Recently, vision-language models (VLMs) have demonstrated strong multimodal reasoning capabilities, offering new opportunities for explainable anomaly detection. However, their high computational cost and lack of domain adaptation hinder real-time deployment and reliability. Inspired by dual complementary pathways in human visual perception, we propose SlowFastVAD, a hybrid framework that integrates a fast anomaly detector with a slow anomaly detector (namely a retrieval augmented generation (RAG) enhanced VLM), to address these limitations. Specifically, the fast detector first provides coarse anomaly confidence scores, and only a small subset of ambiguous segments, rather than the entire video, is further analyzed by the slower yet more interpretable VLM for elaborate detection and reasoning. Furthermore, to adapt VLMs to domain-specific VAD scenarios, we construct a knowledge base including normal patterns based on few normal samples and abnormal patterns inferred by VLMs. During inference, relevant patterns are retrieved and used to augment prompts for anomaly reasoning. Finally, we smoothly fuse the anomaly confidence of fast and slow detectors to enhance robustness of anomaly detection. Extensive experiments on four benchmarks demonstrate that SlowFastVAD effectively combines the strengths of both fast and slow detectors, and achieves remarkable detection accuracy and interpretability with significantly reduced computational overhead, making it well-suited for real-world VAD applications with high reliability requirements.
arxiv情報
著者 | Zongcan Ding,Haodong Zhang,Peng Wu,Guansong Pang,Zhiwei Yang,Peng Wang,Yanning Zhang |
発行日 | 2025-04-14 15:30:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google