Modality-Aware Contrastive Instance Learning with Self-Distillation for Weakly-Supervised Audio-Visual Violence Detection

要約

弱く監視された視聴覚暴力の検出は、ビデオレベルのラベルを持つマルチモーダル暴力イベントを含むスニペットを区別することを目的としています。
多くの以前の作品は、初期または中間の方法で視聴覚統合と相互作用を実行しますが、弱く監視された設定に対するモダリティの不均一性を見落としています。
この論文では、複数インスタンス学習(MIL)手順のモダリティ非同期性と未分化インスタンス現象を分析し、弱教師あり視聴覚学習への悪影響をさらに調査します。
これらの問題に対処するために、自己蒸留(MACIL-SD)戦略を使用したモダリティ対応の対照的なインスタンス学習を提案します。
具体的には、軽量の2ストリームネットワークを活用して、オーディオバッグとビジュアルバッグを生成します。このバッグでは、単峰性の背景、暴力的、通常のインスタンスが教師なしの方法でセミバッグにクラスター化されます。
次に、音声と視覚による暴力的なセミバッグの表現がポジティブペアとして組み立てられ、暴力的なセミバッグは、対照的なネガティブペアとして反対のモダリティで背景と通常のインスタンスと組み合わされます。
さらに、自己蒸留モジュールを適用して、単峰性の視覚的知識を視聴覚モデルに転送します。これにより、ノイズが軽減され、単峰性とマルチモーダルの機能間のセマンティックギャップが埋められます。
実験によると、私たちのフレームワークは、大規模なXD-Violenceデータセットで、以前の方法よりも複雑さが低くなっています。
結果は、提案されたアプローチを他のネットワークを強化するためのプラグインモジュールとして使用できることも示しています。
コードはhttps://github.com/JustinYuu/MACIL_SDで入手できます。

要約(オリジナル)

Weakly-supervised audio-visual violence detection aims to distinguish snippets containing multimodal violence events with video-level labels. Many prior works perform audio-visual integration and interaction in an early or intermediate manner, yet overlooking the modality heterogeneousness over the weakly-supervised setting. In this paper, we analyze the modality asynchrony and undifferentiated instances phenomena of the multiple instance learning (MIL) procedure, and further investigate its negative impact on weakly-supervised audio-visual learning. To address these issues, we propose a modality-aware contrastive instance learning with self-distillation (MACIL-SD) strategy. Specifically, we leverage a lightweight two-stream network to generate audio and visual bags, in which unimodal background, violent, and normal instances are clustered into semi-bags in an unsupervised way. Then audio and visual violent semi-bag representations are assembled as positive pairs, and violent semi-bags are combined with background and normal instances in the opposite modality as contrastive negative pairs. Furthermore, a self-distillation module is applied to transfer unimodal visual knowledge to the audio-visual model, which alleviates noises and closes the semantic gap between unimodal and multimodal features. Experiments show that our framework outperforms previous methods with lower complexity on the large-scale XD-Violence dataset. Results also demonstrate that our proposed approach can be used as plug-in modules to enhance other networks. Codes are available at https://github.com/JustinYuu/MACIL_SD.

arxiv情報

著者 Jiashuo Yu,Jinyu Liu,Ying Cheng,Rui Feng,Yuejie Zhang
発行日 2022-07-12 12:42:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク