Aligning First, Then Fusing: A Novel Weakly Supervised Multimodal Violence Detection Method

要約

弱く監視されている暴力検出とは、ビデオレベルのラベルのみを使用してビデオの暴力セグメントを特定するためのトレーニングモデルのテクニックを指します。
これらのアプローチの中で、オーディオや光学フローなどのモダリティを統合するマルチモーダル暴力検出は、大きな可能性を秘めています。
このドメインの既存の方法は、主にモダリティの不一致に対処するためのマルチモーダル融合モデルの設計に焦点を当てています。
対照的に、別のアプローチを取っています。
暴力イベントの表現におけるモダリティ全体の固有の矛盾を活用して、新しいマルチモーダルセマンティック機能アライメント方法を提案します。
この方法は、ローカル、過渡的、およびそれほど有益でないモダリティ(オーディオや光学フローなど)のセマンティック機能を、より有益なRGBセマンティック機能空間にまばらにマッピングします。
反復プロセスを通じて、この方法は、適切なゼロ機能を一致させるサブスペースを識別し、この部分空間に基づいてモダリティ固有のイベント表現を整列させ、その後のモダリティ融合段階でのすべてのモダリティからの情報を完全に活用できるようにします。
これに基づいて、私たちは、単峰性のセマンティック機能、マルチモーダルアライメント、マルチモーダル融合、および最終検出を抽出するための単象徴的な複数インスタンス学習で構成される、新しい弱く監視された暴力検出フレームワークを設計します。
ベンチマークデータセットの実験結果は、我々の方法の有効性を示しており、XD暴力データセットで86.07%の平均精度(AP)を達成しています。
私たちのコードは、https://github.com/xjpp2016/mavdで入手できます。

要約(オリジナル)

Weakly supervised violence detection refers to the technique of training models to identify violent segments in videos using only video-level labels. Among these approaches, multimodal violence detection, which integrates modalities such as audio and optical flow, holds great potential. Existing methods in this domain primarily focus on designing multimodal fusion models to address modality discrepancies. In contrast, we take a different approach; leveraging the inherent discrepancies across modalities in violence event representation to propose a novel multimodal semantic feature alignment method. This method sparsely maps the semantic features of local, transient, and less informative modalities ( such as audio and optical flow ) into the more informative RGB semantic feature space. Through an iterative process, the method identifies the suitable no-zero feature matching subspace and aligns the modality-specific event representations based on this subspace, enabling the full exploitation of information from all modalities during the subsequent modality fusion stage. Building on this, we design a new weakly supervised violence detection framework that consists of unimodal multiple-instance learning for extracting unimodal semantic features, multimodal alignment, multimodal fusion, and final detection. Experimental results on benchmark datasets demonstrate the effectiveness of our method, achieving an average precision (AP) of 86.07% on the XD-Violence dataset. Our code is available at https://github.com/xjpp2016/MAVD.

arxiv情報

著者 Wenping Jin,Li Zhu,Jing Sun
発行日 2025-03-14 14:22:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク