要約
ビデオ異常検出(VAD)は、ビデオ分析とコンピュータービジョンの監視に不可欠です。
ただし、既存のVADモデルは、学習した通常のパターンに依存しているため、多様な環境に適用することが困難になります。
したがって、ユーザーはモデルを再編成するか、新しい環境の個別のAIモデルを開発する必要があります。これには、機械学習、高性能ハードウェア、および広範なデータ収集の専門知識が必要であり、VADの実用的な使いやすさが制限されます。
これらの課題に対処するために、この研究では、カスタマイズ可能なビデオアノマリー検出(C-VAD)手法とアニオヨーマリーモデルを提案しています。
C-Vadは、ユーザー定義のテキストを異常なイベントと見なし、ビデオに指定されたイベントを含むフレームを検出します。
大規模なビジョン言語モデルを微調整することなく、コンテキスト認識の視覚的質問に応答することを使用して、Anyanomalyを効果的に実装しました。
提案されたモデルの有効性を検証するために、C-VADデータセットを構築し、Anyanomalyの優位性を実証しました。
さらに、私たちのアプローチは、VADベンチマークデータセットで競争力のあるパフォーマンスを示し、すべてのデータセットで一般化の他の方法を上回るUbnormalデータセットで最先端の結果を達成しました。
私たちのコードは、github.com/skiddieahn/paper-anyanomalyでオンラインで入手できます。
要約(オリジナル)
Video anomaly detection (VAD) is crucial for video analysis and surveillance in computer vision. However, existing VAD models rely on learned normal patterns, which makes them difficult to apply to diverse environments. Consequently, users should retrain models or develop separate AI models for new environments, which requires expertise in machine learning, high-performance hardware, and extensive data collection, limiting the practical usability of VAD. To address these challenges, this study proposes customizable video anomaly detection (C-VAD) technique and the AnyAnomaly model. C-VAD considers user-defined text as an abnormal event and detects frames containing a specified event in a video. We effectively implemented AnyAnomaly using a context-aware visual question answering without fine-tuning the large vision language model. To validate the effectiveness of the proposed model, we constructed C-VAD datasets and demonstrated the superiority of AnyAnomaly. Furthermore, our approach showed competitive performance on VAD benchmark datasets, achieving state-of-the-art results on the UBnormal dataset and outperforming other methods in generalization across all datasets. Our code is available online at github.com/SkiddieAhn/Paper-AnyAnomaly.
arxiv情報
著者 | Sunghyun Ahn,Youngwan Jo,Kijung Lee,Sein Kwon,Inpyo Hong,Sanghyun Park |
発行日 | 2025-03-06 14:52:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google