要約
閉回路テレビ(CCTV)映像における暴力や武器化された暴力の検出には、包括的なアプローチが必要です。この研究では、監視カメラ映像における武器の分布の学習を促進するために特別に設計されたデータセットである↪Smart-City CCTV Violence Detection (SCVD)}を紹介します。暴力認識タスクのための3D監視ビデオ解析の複雑さに取り組むために、私たちは↪Smart-City CCTV Violence Detection (SCVD)データセットを提案します。本手法は、Salient-Super-Image表現を用いることで、推論、性能、説明可能性を向上させながら、3Dビデオデータの複雑さ、次元、情報損失を低減する。未来のスマートシティのスケーラビリティと持続可能性の要件を考慮して、著者らは、カーネル化アプローチと残差学習戦略を組み合わせた新しいアーキテクチャである㈰Salient-Classifier ㈰を導入する。SSIVD-NetとSalient ClassifierのバリエーションをSCVDデータセットで評価し、暴力検知で一般的に採用されている最先端の(SOTA)モデルとのベンチマークを行った。我々のアプローチは、武器化された暴力インスタンスと非武器化された暴力インスタンスの両方を検出する際に有意な改善を示した。暴力検出におけるSOTAを進歩させることにより、我々の研究は実世界のアプリケーションに適した実用的でスケーラブルなソリューションを提供する。提案された手法は、CCTV映像における暴力検出の課題を解決するだけでなく、スマート監視における武器の分布の理解にも貢献する。最終的に、我々の研究成果は、よりスマートで安全な都市を実現し、公共の安全対策を強化するはずである。
要約(オリジナル)
Detection of violence and weaponized violence in closed-circuit television (CCTV) footage requires a comprehensive approach. In this work, we introduce the \emph{Smart-City CCTV Violence Detection (SCVD)} dataset, specifically designed to facilitate the learning of weapon distribution in surveillance videos. To tackle the complexities of analyzing 3D surveillance video for violence recognition tasks, we propose a novel technique called, \emph{SSIVD-Net} (\textbf{S}alient-\textbf{S}uper-\textbf{I}mage for \textbf{V}iolence \textbf{D}etection). Our method reduces 3D video data complexity, dimensionality, and information loss while improving inference, performance, and explainability through the use of Salient-Super-Image representations. Considering the scalability and sustainability requirements of futuristic smart cities, the authors introduce the \emph{Salient-Classifier}, a novel architecture combining a kernelized approach with a residual learning strategy. We evaluate variations of SSIVD-Net and Salient Classifier on our SCVD dataset and benchmark against state-of-the-art (SOTA) models commonly employed in violence detection. Our approach exhibits significant improvements in detecting both weaponized and non-weaponized violence instances. By advancing the SOTA in violence detection, our work offers a practical and scalable solution suitable for real-world applications. The proposed methodology not only addresses the challenges of violence detection in CCTV footage but also contributes to the understanding of weapon distribution in smart surveillance. Ultimately, our research findings should enable smarter and more secure cities, as well as enhance public safety measures.
arxiv情報
著者 | Toluwani Aremu,Li Zhiyuan,Reem Alameeri,Mustaqeem Khan,Abdulmotaleb El Saddik |
発行日 | 2023-08-04 09:54:51+00:00 |
arxivサイト | arxiv_id(pdf) |