Multimodal Attention-Enhanced Feature Fusion-based Weekly Supervised Anomaly Violence Detection

要約

弱監視ビデオ異常検出 (WS-VAD) は、インテリジェントな監視システムを開発するためのコンピューター ビジョンの重要な領域です。
このシステムは、RGB ビデオ、オプティカル フロー、およびオーディオ信号の 3 つの特徴ストリームを使用します。各ストリームは、検出精度と堅牢性を向上させるために、強化されたアテンション モジュールを使用して相補的な空間的および時間的特徴を抽出します。
最初のストリームでは、アテンションベースの多段階の機能強化アプローチを採用して、RGB ビデオから空間的および時間的特徴を改善しました。最初の段階は ViT ベースの CLIP モジュールで構成され、トップ k の特徴が並列に連結されています。
I3D および時間コンテキスト集約 (TCA) ベースの豊富な時空間機能。
第 2 段階では、正常データと異常データの表現を同時に学習する不確実性制御デュアル メモリ ユニット (UR-DMU) モデルを使用して時間依存関係を効果的にキャプチャし、第 3 段階では最も関連性の高い時空間特徴を選択します。
2 番目のストリームは、深層学習とアテンション モジュールの統合を利用して、フロー データ モダリティ ベースの特徴から強化されたアテンション ベースの時空間特徴を抽出しました。
オーディオ ストリームは、音声パターンに基づいて異常を検出することを目的として、VGGish モデルと統合されたアテンション モジュールを使用して聴覚キューをキャプチャします。
これらのストリームは、視覚的な分析だけでは検出できない異常なイベントを示すモーション信号や音声信号を組み込むことでモデルを強化します。
マルチモーダル フュージョンを連結すると、各モダリティの強みが活用され、その結果、3 つのデータセットにわたる異常検出の精度と堅牢性が大幅に向上する包括的な機能セットが実現します。
3 つのベンチマーク データセットを使用した広範な実験と高いパフォーマンスにより、提案されたシステムが既存の最先端システムよりも有効であることが証明されました。

要約(オリジナル)

Weakly supervised video anomaly detection (WS-VAD) is a crucial area in computer vision for developing intelligent surveillance systems. This system uses three feature streams: RGB video, optical flow, and audio signals, where each stream extracts complementary spatial and temporal features using an enhanced attention module to improve detection accuracy and robustness. In the first stream, we employed an attention-based, multi-stage feature enhancement approach to improve spatial and temporal features from the RGB video where the first stage consists of a ViT-based CLIP module, with top-k features concatenated in parallel with I3D and Temporal Contextual Aggregation (TCA) based rich spatiotemporal features. The second stage effectively captures temporal dependencies using the Uncertainty-Regulated Dual Memory Units (UR-DMU) model, which learns representations of normal and abnormal data simultaneously, and the third stage is employed to select the most relevant spatiotemporal features. The second stream extracted enhanced attention-based spatiotemporal features from the flow data modality-based feature by taking advantage of the integration of the deep learning and attention module. The audio stream captures auditory cues using an attention module integrated with the VGGish model, aiming to detect anomalies based on sound patterns. These streams enrich the model by incorporating motion and audio signals often indicative of abnormal events undetectable through visual analysis alone. The concatenation of the multimodal fusion leverages the strengths of each modality, resulting in a comprehensive feature set that significantly improves anomaly detection accuracy and robustness across three datasets. The extensive experiment and high performance with the three benchmark datasets proved the effectiveness of the proposed system over the existing state-of-the-art system.

arxiv情報

著者 Yuta Kaneko,Abu Saleh Musa Miah,Najmul Hassan,Hyoun-Sup Lee,Si-Woong Jang,Jungpil Shin
発行日 2024-09-17 14:17:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク