SIViDet: Salient Image for Efficient Weaponized Violence Detection

要約

世界中のすべてのコネクテッド スマート シティで、CCTV は当局が行動を起こすための違法行為を記録することで、市民の安全とセキュリティを確保する上で極めて重要な役割を果たしてきました。
この分野で CCTV の効率と有効性を確保するために、さまざまな DNN アーキテクチャが作成され、研究者や開発者によって使用され、境界ボックスまたはマスクを使用して暴力を検出したり、武器を検出したりしました。
これらの武器は、銃、ナイフ、およびその他の明らかな手持ち武器に限定されます。
これらの制限を取り除き、武器をより効率的に検出するには、CCTV からの武器化されていない暴力映像を武器化されたものと区別できる必要があります。
武器化された暴力の検出における一般化の目的に合わせて調整された現在のデータセットがないため、武器化された暴力、武器化されていない暴力、および非暴力的な出来事を描写したビデオを含む新しいデータセットを導入しました。
また、SOTA 画像分類器による快適な推論のために情報の損失を最小限に抑えながら、ビデオ フレームを顕著な画像に配置する新しいデータ中心の方法も提案します。
これは、ビデオ分類タスクを簡素化し、推論のレイテンシを最適化して、スマート シティの持続可能性を向上させるために行われました。
私たちの実験では、画像分類子が武器を使用した暴力と武器を使用していない暴力を効率的に検出して区別できることが示されています。これは、アクション認識とビデオ分類の現在の SOTA 3D ネットワークに匹敵する 99\% のパフォーマンスを備えています。

要約(オリジナル)

In every connected smart city around the world, CCTVs have played a pivotal role in enforcing the safety and security of the citizens by recording unlawful activities for the authorities to take action. To ensure the efficiency and effectiveness of CCTVs in this domain, different DNN architectures were created and used by researchers and developers to either detect violence or detect weapons using bounding boxes or masks. These weapons are limited to guns, knives, and other obvious handheld weapons. To remove these limits and detect weapons more efficiently, non-weaponized violence footage from CCTV must be differentiable from weaponized ones. Since there are no current datasets that are tailored to this purpose of generalizability in weaponized violence detection, we introduced a new dataset that contains videos depicting weaponized violence, non-weaponized violence, and non-violent events. We also propose a novel data-centric method that arranges video frames into salient images while minimizing information loss for comfortable inference by SOTA image classifiers. This was done to simplify video classification tasks and optimize inference latency to improve sustainability in smart cities. Our experiments show that Image Classifiers can efficiently detect and distinguish violence with weapons from violence without weapons with performances as high as 99\% on our dataset, which are comparable with current SOTA 3D networks for action recognition and video classification.

arxiv情報

著者 Toluwani Aremu,Li Zhiyuan,Reem Alameeri,Abdulmotaleb El Saddik
発行日 2023-01-26 12:29:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク