From Explicit Rules to Implicit Reasoning in an Interpretable Violence Monitoring System

要約

最近、事前トレーニングされたモデルに基づく研究により、暴力監視タスクにおいて優れたパフォーマンスが実証されました。
しかし、それらのほとんどはブラックボックス システムであり、トレーニングおよび推論プロセス中の説明可能性に関する課題に直面していました。
重要な問題は、明示的な知識をこれらの暗黙のモデルに組み込む方法であり、それによって専門家主導の解釈可能な暴力監視システムを設計することができます。
この論文では、ルールベース暴力監視 (RuleVM) と呼ばれる、弱く監視された暴力監視 (WSVM) のための新しいパラダイムを提案します。
提案された RuleVM は、画像とテキストで異なるデザインを備えたデュアルブランチ構造を使用します。
ブランチの 1 つは暗黙的ブランチと呼ばれ、粗粒度のバイナリ分類に視覚的な特徴のみを使用します。
このブランチでは、画像特徴抽出が 2 つのチャネルに分割されます。1 つはシーン フレームの抽出を担当し、もう 1 つはアクションの抽出に焦点を当てます。
もう 1 つのブランチは明示的ブランチと呼ばれ、言語と画像の調整を利用して詳細な分類を実行します。
明示的ブランチの言語チャネル設計では、提案された RuleVM は最先端の YOLOWorld モデルを使用してビデオ フレーム内のオブジェクトを検出し、データ マイニング手法を通じてビデオの説明として関連付けルールが特定されます。
RuleVM は、デュアル ブランチ アーキテクチャを活用して、解釈可能な粗粒および細粒の暴力監視を実現します。
一般的に使用される 2 つのベンチマークで広範な実験が実施され、その結果、RuleVM が粗粒度モニタリングと細粒度モニタリングの両方で最高のパフォーマンスを達成し、既存の最先端の方法を大幅に上回っていることがわかりました。
さらに、解釈可能性の実験により、人の数が増えると暴力行為のリスクレベルも上昇するという観察など、いくつかの興味深い法則が明らかになりました。

要約(オリジナル)

Recently, research based on pre-trained models has demonstrated outstanding performance in violence surveillance tasks. However, most of them were black-box systems which faced challenges regarding explainability during training and inference processes. An important question is how to incorporate explicit knowledge into these implicit models, thereby designing expertdriven and interpretable violence surveillance systems. This paper proposes a new paradigm for weakly supervised violence monitoring (WSVM) called Rule base Violence Monitoring (RuleVM). The proposed RuleVM uses a dual-branch structure with different designs for images and text. One of the branches is called the implicit branch, which uses only visual features for coarse-grained binary classification. In this branch, image feature extraction is divided into two channels: one responsible for extracting scene frames and the other focusing on extracting actions. The other branch is called the explicit branch, which utilizes language-image alignment to perform fine-grained classification. For the language channel design in the explicit branch, the proposed RuleVM uses the state-of-the-art YOLOWorld model to detect objects in video frames, and association rules are identified through data mining methods as descriptions of the video. Leveraging the dual-branch architecture, RuleVM achieves interpretable coarse-grained and fine-grained violence surveillance. Extensive experiments were conducted on two commonly used benchmarks, and the results show that RuleVM achieved the best performance in both coarse-grained and finegrained monitoring, significantly outperforming existing state-ofthe-art methods. Moreover, interpretability experiments uncovered some interesting rules, such as the observation that as the number of people increases, the risk level of violent behavior also rises.

arxiv情報

著者 Wen-Dong Jiang,Chih-Yung Chang,Ssu-Chi Kuai,Diptendu Sinha Roy
発行日 2024-11-14 12:19:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク