Two-stream Multi-dimensional Convolutional Network for Real-time Violence Detection

要約

監視カメラの数の増加とセキュリティへの懸念から、監視映像からの自動暴力行為検出は活発な研究領域となっている。最新の深層学習法は暴力検出において良好な精度を達成し、インテリジェントな監視システムに適用可能であるため、成功することが証明された。しかし、特徴抽出のための非効率的な方法のため、モデルは計算が高く、サイズが大きい。本研究では、RGBフレームとオプティカルフローを用いた2ストリーム多次元畳み込みネットワーク(2s-MDCN)と呼ばれる暴力検出のための新しいアーキテクチャを提示する。提案手法は、1次元、2次元、3次元の畳み込みにより、時間情報と空間情報を独立に抽出する。多次元畳み込みネットワークを組み合わせるにもかかわらず、我々のモデルはチャネル容量が減少するため軽量かつ効率的であり、しかも意味のある空間情報と時間情報を抽出するように学習する。さらに、RGBフレームとオプティカルフローを組み合わせることで、単一のRGBストリームよりも2.2%高い精度を得ることができました。このように複雑さが少ないにもかかわらず、我々のモデルは最大の暴力検出ベンチマークデータセットにおいて89.7%という最先端の精度を得ることができた。

要約(オリジナル)

The increasing number of surveillance cameras and security concerns have made automatic violent activity detection from surveillance footage an active area for research. Modern deep learning methods have achieved good accuracy in violence detection and proved to be successful because of their applicability in intelligent surveillance systems. However, the models are computationally expensive and large in size because of their inefficient methods for feature extraction. This work presents a novel architecture for violence detection called Two-stream Multi-dimensional Convolutional Network (2s-MDCN), which uses RGB frames and optical flow to detect violence. Our proposed method extracts temporal and spatial information independently by 1D, 2D, and 3D convolutions. Despite combining multi-dimensional convolutional networks, our models are lightweight and efficient due to reduced channel capacity, yet they learn to extract meaningful spatial and temporal information. Additionally, combining RGB frames and optical flow yields 2.2% more accuracy than a single RGB stream. Regardless of having less complexity, our models obtained state-of-the-art accuracy of 89.7% on the largest violence detection benchmark dataset.

arxiv情報

著者 Dipon Kumar Ghosh,Amitabha Chakrabarty
発行日 2022-11-08 14:04:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク