EventVAD: Training-Free Event-Aware Video Anomaly Detection

要約

ビデオアノマリー検出〜(VAD)は、ビデオ内の異常の識別に焦点を当てています。
監視された方法では、ドメイン内のトレーニングデータの量が必要であり、目に見えない異常に一般化するのに苦労することがよくあります。
対照的に、トレーニングフリーの方法は、大規模な言語モデル(LLM)の本質的な世界知識を活用して異常を検出しますが、きめ細かい視覚的遷移と多様なイベントをローカライズする際の課題に直面しています。
したがって、時間のイベント推論を通じて、テーラードダイナミックグラフアーキテクチャとマルチモーダルLLMSを組み合わせたイベントを意識したビデオアノマリー検出フレームワークであるEventVadを提案します。
具体的には、EventVadは最初に、時間依存の制約を備えた動的な時空間グラフモデリングを使用して、イベント認識ビデオ機能をキャプチャします。
次に、適応型ノイズフィルタリングを実行し、信号比のしきい値を使用して、監視されていない統計的特徴を介してイベント境界を検出します。
統計的境界検出モジュールは、MLLMSの長いビデオの処理の複雑さを減らし、イベントの一貫性を通じて時間的推論を改善します。
最後に、最終決定を決定する前に、推論を実行する際にMLLMを導くための階層的なプロンプト戦略を利用します。
UCF犯罪およびXD暴力データセットに関する広範な実験を実施しました。
結果は、7B MLLMを備えたEventVadがトレーニングなしの設定で最先端(SOTA)を達成し、7B以上のMLLMを使用する強力なベースラインを上回ることを示しています。

要約(オリジナル)

Video Anomaly Detection~(VAD) focuses on identifying anomalies within videos. Supervised methods require an amount of in-domain training data and often struggle to generalize to unseen anomalies. In contrast, training-free methods leverage the intrinsic world knowledge of large language models (LLMs) to detect anomalies but face challenges in localizing fine-grained visual transitions and diverse events. Therefore, we propose EventVAD, an event-aware video anomaly detection framework that combines tailored dynamic graph architectures and multimodal LLMs through temporal-event reasoning. Specifically, EventVAD first employs dynamic spatiotemporal graph modeling with time-decay constraints to capture event-aware video features. Then, it performs adaptive noise filtering and uses signal ratio thresholding to detect event boundaries via unsupervised statistical features. The statistical boundary detection module reduces the complexity of processing long videos for MLLMs and improves their temporal reasoning through event consistency. Finally, it utilizes a hierarchical prompting strategy to guide MLLMs in performing reasoning before determining final decisions. We conducted extensive experiments on the UCF-Crime and XD-Violence datasets. The results demonstrate that EventVAD with a 7B MLLM achieves state-of-the-art (SOTA) in training-free settings, outperforming strong baselines that use 7B or larger MLLMs.

arxiv情報

著者 Yihua Shao,Haojin He,Sijie Li,Siyu Chen,Xinwei Long,Fanhu Zeng,Yuxuan Fan,Muyang Zhang,Ziyang Yan,Ao Ma,Xiaochen Wang,Hao Tang,Yan Wang,Shuyan Li
発行日 2025-04-17 16:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク