Learning Weakly Supervised Audio-Visual Violence Detection in Hyperbolic Space

要約

近年、弱い監視下での視聴覚暴力検出のタスクがかなりの注目を集めています。
このタスクの目標は、ビデオ レベルのラベルに基づいてマルチモーダル データ内の暴力的なセグメントを特定することです。
この分野の進歩にも関わらず、先行研究で使用されてきた従来のユークリッド ニューラル ネットワークでは、特徴空間の制限により、高度に識別的な表現を捕捉することが困難でした。
これを克服するために、双曲空間でのスニペットの埋め込みを学習してモデルの識別を向上させる新しいフレームワークである HyperVD を提案します。
私たちのフレームワークは、マルチモーダル融合のための迂回融合モジュールで構成されており、オーディオ信号とビジュアル信号の間のモダリティの不一致を効果的に軽減します。
さらに、双曲空間内のスニペット間の特徴の類似性と時間的関係を発掘する完全双曲グラフ畳み込みネットワークの 2 つのブランチを提供します。
この空間でスニペット表現を学習することにより、フレームワークは暴力的なイベントと通常のイベントの間の意味上の矛盾を効果的に学習します。
XD-Violence ベンチマークに関する広範な実験により、私たちの手法が最先端の手法よりも大幅に優れていることが実証されました。

要約(オリジナル)

In recent years, the task of weakly supervised audio-visual violence detection has gained considerable attention. The goal of this task is to identify violent segments within multimodal data based on video-level labels. Despite advances in this field, traditional Euclidean neural networks, which have been used in prior research, encounter difficulties in capturing highly discriminative representations due to limitations of the feature space. To overcome this, we propose HyperVD, a novel framework that learns snippet embeddings in hyperbolic space to improve model discrimination. Our framework comprises a detour fusion module for multimodal fusion, effectively alleviating modality inconsistency between audio and visual signals. Additionally, we contribute two branches of fully hyperbolic graph convolutional networks that excavate feature similarities and temporal relationships among snippets in hyperbolic space. By learning snippet representations in this space, the framework effectively learns semantic discrepancies between violent and normal events. Extensive experiments on the XD-Violence benchmark demonstrate that our method outperforms state-of-the-art methods by a sizable margin.

arxiv情報

著者 Xiaogang Peng,Hao Wen,Yikai Luo,Xiao Zhou,Keyang Yu,Ping Yang,Zizhao Wu
発行日 2024-02-13 16:00:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク