要約
弱く監視された暴力検出とは、ビデオレベルのラベルのみを使用してビデオ内の暴力的な部分を識別するモデルをトレーニングする手法を指します。
これらのアプローチの中でも、音声やオプティカル フローなどのモダリティを統合するマルチモーダル暴力検出は、大きな可能性を秘めています。
この分野の既存の方法は主に、モダリティの不一致に対処するためのマルチモーダル融合モデルの設計に焦点を当てています。
対照的に、私たちは異なるアプローチを採用しています。
暴力イベントの表現におけるモダリティ間の固有の矛盾を利用して、新しいマルチモーダルな意味論的特徴の調整方法を提案します。
この方法では、局所的、一時的、およびあまり情報量の少ないモダリティ (オーディオやオプティカル フローなど) の意味論的特徴を、より情報量の多い RGB 意味論的特徴空間にまばらにマッピングします。
この方法は、反復プロセスを通じて、部分空間に一致する適切な非ゼロ特徴を特定し、この部分空間に基づいてモダリティ固有のイベント表現を調整し、後続のモダリティ融合段階ですべてのモダリティからの情報を完全に活用できるようにします。
これに基づいて、単峰性の意味論的特徴を抽出するための単峰性複数インスタンス学習、多峰性の位置合わせ、多峰性の融合、および最終検出で構成される、新しい弱い教師あり暴力検出フレームワークを設計します。
ベンチマーク データセットでの実験結果は、私たちの手法の有効性を示しており、XD-Violence データセットで 86.07% の平均精度 (AP) を達成しています。
私たちのコードは https://github.com/xjpp2016/MAVD で入手できます。
要約(オリジナル)
Weakly supervised violence detection refers to the technique of training models to identify violent segments in videos using only video-level labels. Among these approaches, multimodal violence detection, which integrates modalities such as audio and optical flow, holds great potential. Existing methods in this domain primarily focus on designing multimodal fusion models to address modality discrepancies. In contrast, we take a different approach; leveraging the inherent discrepancies across modalities in violence event representation to propose a novel multimodal semantic feature alignment method. This method sparsely maps the semantic features of local, transient, and less informative modalities ( such as audio and optical flow ) into the more informative RGB semantic feature space. Through an iterative process, the method identifies the suitable no-zero feature matching subspace and aligns the modality-specific event representations based on this subspace, enabling the full exploitation of information from all modalities during the subsequent modality fusion stage. Building on this, we design a new weakly supervised violence detection framework that consists of unimodal multiple-instance learning for extracting unimodal semantic features, multimodal alignment, multimodal fusion, and final detection. Experimental results on benchmark datasets demonstrate the effectiveness of our method, achieving an average precision (AP) of 86.07% on the XD-Violence dataset. Our code is available at https://github.com/xjpp2016/MAVD.
arxiv情報
著者 | Wenping Jin,Li Zhu,Jing Sun |
発行日 | 2025-01-13 17:14:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google