Investigating Modality Bias in Audio Visual Video Parsing

要約

オーディオとビジュアルのイベント ラベルを時間境界で検出することを含むオーディオ ビジュアル ビデオ解析 (AVVP) 問題に焦点を当てます。
このタスクは、各ビデオのラベルのバッグとして使用できるイベント ラベルのみで監視が弱いため、特に困難です。
AVVP の既存の最先端モデルは、ハイブリッド アテンション ネットワーク (HAN) を使用して、オーディオとビジュアルの両方のモダリティのクロスモーダル機能を生成し、予測されたオーディオおよびビジュアル セグメント レベルのイベント確率を集約して、
ビデオ レベルのイベント確率を生成します。
予測中にモダリティが完全に無視される既存の HAN アーキテクチャにおけるモダリティ バイアスの詳細な分析を提供します。
また、既存の HAN と比較して、セグメント レベルとイベント レベルの両方で、ビジュアル イベントとオーディオ ビジュアル イベントの F スコアが約 2% と 1.6% 絶対的に向上する、HAN の機能集約のバリアントを提案します。
モデル。

要約(オリジナル)

We focus on the audio-visual video parsing (AVVP) problem that involves detecting audio and visual event labels with temporal boundaries. The task is especially challenging since it is weakly supervised with only event labels available as a bag of labels for each video. An existing state-of-the-art model for AVVP uses a hybrid attention network (HAN) to generate cross-modal features for both audio and visual modalities, and an attentive pooling module that aggregates predicted audio and visual segment-level event probabilities to yield video-level event probabilities. We provide a detailed analysis of modality bias in the existing HAN architecture, where a modality is completely ignored during prediction. We also propose a variant of feature aggregation in HAN that leads to an absolute gain in F-scores of about 2% and 1.6% for visual and audio-visual events at both segment-level and event-level, in comparison to the existing HAN model.

arxiv情報

著者 Piyush Singh Pasi,Shubham Nemani,Preethi Jyothi,Ganesh Ramakrishnan
発行日 2022-11-11 07:00:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV パーマリンク