Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection

要約

弱監視マルチモーダル暴力検出は、RGB、オプティカル フロー、オーディオなどの複数のモダリティを活用して暴力検出モデルを学習することを目的としていますが、利用できるのはビデオ レベルの注釈のみです。
効果的なマルチモーダル暴力検知 (MVD) を追求するには、情報の冗長性、モダリティの不均衡、およびモダリティの非同期性が 3 つの重要な課題として特定されます。
この研究では、これらの課題に明示的に対処する、新しい弱教師あり MVD 手法を提案します。
具体的には、ボトルネック トークンの数を減らして徐々に情報を凝縮し、モダリティの各ペアを融合するマルチスケール ボトルネック トランスフォーマー (MSBT) ベースの融合モジュールを導入します。また、より重要な融合された機能を強調するためにボトルネック トークン ベースの重み付けスキームを利用します。
さらに、ペアごとに融合された特徴を意味的に位置合わせするための時間的一貫性コントラスト損失を提案します。
最大規模の XD-Violence データセットでの実験により、提案された手法が最先端のパフォーマンスを達成することが実証されました。
コードは https://github.com/shengyangsun/MSBT で入手できます。

要約(オリジナル)

Weakly supervised multimodal violence detection aims to learn a violence detection model by leveraging multiple modalities such as RGB, optical flow, and audio, while only video-level annotations are available. In the pursuit of effective multimodal violence detection (MVD), information redundancy, modality imbalance, and modality asynchrony are identified as three key challenges. In this work, we propose a new weakly supervised MVD method that explicitly addresses these challenges. Specifically, we introduce a multi-scale bottleneck transformer (MSBT) based fusion module that employs a reduced number of bottleneck tokens to gradually condense information and fuse each pair of modalities and utilizes a bottleneck token-based weighting scheme to highlight more important fused features. Furthermore, we propose a temporal consistency contrast loss to semantically align pairwise fused features. Experiments on the largest-scale XD-Violence dataset demonstrate that the proposed method achieves state-of-the-art performance. Code is available at https://github.com/shengyangsun/MSBT.

arxiv情報

著者 Shengyang Sun,Xiaojin Gong
発行日 2024-05-08 15:27:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク