要約
都市監視システムの広範な導入により、公共の安全を強化するために異常検出のためのより高度な技術が必要になりました。
このペーパーでは、Two-Stream Infrated 3D (I3D) Convolutional Networks のアプリケーションによる異常検出の分野における大きな進歩について説明します。
これらのネットワークは、監視ビデオから空間的および時間的特徴をより効果的に抽出することで、従来の 3D 畳み込みネットワーク (C3D) を大幅に上回り、異常検出の精度を向上させます。
私たちの研究は、監視ビデオをインスタンス (ビデオ クリップ) を含む「バッグ」のコレクションとして独自に概念化する、複数インスタンス学習 (MIL) に基づく弱教師あり学習フレームワークを実装することにより、この分野を前進させます。
各インスタンスは、異常を表示する可能性に基づいてクリップに優先順位を付けるランク付けメカニズムを通じて革新的に処理されます。
この新しい戦略は、異常検出の精度と精度を向上させるだけでなく、広範な手動アノテーションへの依存を大幅に軽減します。
さらに、オプティマイザーの選択を含むモデル設定の細心の最適化を通じて、当社のアプローチは、異常検出システムのパフォーマンスにおける新しいベンチマークを確立するだけでなく、現実世界の監視アプリケーション向けのスケーラブルで効率的なソリューションも提供します。
この論文は、より適応性があり、効率的で、コンテキストを認識した異常検出システムを提供することにより、コンピュータ ビジョンの分野に大きく貢献し、都市監視の実践を再定義する態勢を整えています。
要約(オリジナル)
The widespread implementation of urban surveillance systems has necessitated more sophisticated techniques for anomaly detection to ensure enhanced public safety. This paper presents a significant advancement in the field of anomaly detection through the application of Two-Stream Inflated 3D (I3D) Convolutional Networks. These networks substantially outperform traditional 3D Convolutional Networks (C3D) by more effectively extracting spatial and temporal features from surveillance videos, thus improving the precision of anomaly detection. Our research advances the field by implementing a weakly supervised learning framework based on Multiple Instance Learning (MIL), which uniquely conceptualizes surveillance videos as collections of ‘bags’ that contain instances (video clips). Each instance is innovatively processed through a ranking mechanism that prioritizes clips based on their potential to display anomalies. This novel strategy not only enhances the accuracy and precision of anomaly detection but also significantly diminishes the dependency on extensive manual annotations. Moreover, through meticulous optimization of model settings, including the choice of optimizer, our approach not only establishes new benchmarks in the performance of anomaly detection systems but also offers a scalable and efficient solution for real-world surveillance applications. This paper contributes significantly to the field of computer vision by delivering a more adaptable, efficient, and context-aware anomaly detection system, which is poised to redefine practices in urban surveillance.
arxiv情報
著者 | Sareh Soltani Nejad,Anwar Haque |
発行日 | 2024-11-13 16:33:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google