Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts

要約

現在の弱監視ビデオ異常検出 (WSVAD) タスクは、利用可能な粗いビデオ レベルの注釈のみを使用してフレーム レベルの異常イベント検出を達成することを目的としています。
既存の研究では通常、フル解像度のビデオ フレームからグローバルな特徴を抽出し、時間次元での異常を検出するためにフレーム レベルの分類器をトレーニングすることが含まれています。
ただし、ほとんどの異常イベントはビデオ フレーム全体ではなく、局所的な空間領域で発生する傾向があります。これは、既存のフレーム レベルの特徴ベースの作品が主要な背景情報によって誤解され、検出された異常の解釈が欠けている可能性があることを意味します。
このジレンマに対処するために、この論文では、事前トレーニングされた視覚言語モデル (VLM) に基づいて、弱教師ビデオ異常検出および位置特定 (WSVADL) のための時空間プロンプト埋め込みを学習する STPrompt と呼ばれる新しい方法を紹介します。
私たちが提案する方法は 2 つのストリームのネットワーク構造を採用しており、1 つのストリームは時間次元に焦点を当て、もう 1 つのストリームは主に空間次元に焦点を当てています。
事前トレーニングされた VLM から学習した知識を活用し、生のビデオから自然な動きの事前分布を組み込むことにより、私たちのモデルは、異常の特定の局所領域を識別するために、ビデオの時空間領域 (例: 個々のフレームのパッチ) に合わせたプロンプト埋め込みを学習します。
背景情報の影響を軽減しながら、正確なビデオ異常検出を可能にします。
詳細な時空間注釈や補助的な物体検出/追跡に依存することなく、私たちの方法は、WSVADL タスクの 3 つの公開ベンチマークで最先端のパフォーマンスを達成します。

要約(オリジナル)

Current weakly supervised video anomaly detection (WSVAD) task aims to achieve frame-level anomalous event detection with only coarse video-level annotations available. Existing works typically involve extracting global features from full-resolution video frames and training frame-level classifiers to detect anomalies in the temporal dimension. However, most anomalous events tend to occur in localized spatial regions rather than the entire video frames, which implies existing frame-level feature based works may be misled by the dominant background information and lack the interpretation of the detected anomalies. To address this dilemma, this paper introduces a novel method called STPrompt that learns spatio-temporal prompt embeddings for weakly supervised video anomaly detection and localization (WSVADL) based on pre-trained vision-language models (VLMs). Our proposed method employs a two-stream network structure, with one stream focusing on the temporal dimension and the other primarily on the spatial dimension. By leveraging the learned knowledge from pre-trained VLMs and incorporating natural motion priors from raw videos, our model learns prompt embeddings that are aligned with spatio-temporal regions of videos (e.g., patches of individual frames) for identify specific local regions of anomalies, enabling accurate video anomaly detection while mitigating the influence of background information. Without relying on detailed spatio-temporal annotations or auxiliary object detection/tracking, our method achieves state-of-the-art performance on three public benchmarks for the WSVADL task.

arxiv情報

著者 Peng Wu,Xuerong Zhou,Guansong Pang,Zhiwei Yang,Qingsen Yan,Peng Wang,Yanning Zhang
発行日 2024-08-13 13:55:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク