要約
オーディオビジュアルビデオの解析は、弱いラベルを使用してセグメントレベルでビデオを分類し、それらを可聴イベントまたは可視イベントとして予測するタスクです。
このタスクの最近の方法では、アテンション メカニズムを活用して、視聴覚モダリティ全体のビデオ全体の意味的相関関係をキャプチャします。
ただし、これらのアプローチでは、ビデオ内の個々のセグメントの重要性とそれらの間の関係が見落とされており、特徴を学習する際に単一のモダリティに依存する傾向があります。
この論文では、セグメントベースのアテンションモジュールを適用することで、きめ細かい特徴を学習できる新しい対話型強化クロスモーダル知覚手法(CM-PIE)を提案します。
さらに、クロスモーダル集約ブロックが導入され、モーダル間のインタラクションを強化することでオーディオ信号とビジュアル信号のセマンティック表現を共同で最適化します。
実験結果は、このモデルが他の方法と比較して、Look、Listen、および Parse データセットの解析パフォーマンスが向上していることを示しています。
要約(オリジナル)
Audio-visual video parsing is the task of categorizing a video at the segment level with weak labels, and predicting them as audible or visible events. Recent methods for this task leverage the attention mechanism to capture the semantic correlations among the whole video across the audio-visual modalities. However, these approaches have overlooked the importance of individual segments within a video and the relationship among them, and tend to rely on a single modality when learning features. In this paper, we propose a novel interactive-enhanced cross-modal perception method~(CM-PIE), which can learn fine-grained features by applying a segment-based attention module. Furthermore, a cross-modal aggregation block is introduced to jointly optimize the semantic representation of audio and visual signals by enhancing inter-modal interactions. The experimental results show that our model offers improved parsing performance on the Look, Listen, and Parse dataset compared to other methods.
arxiv情報
著者 | Yaru Chen,Ruohao Guo,Xubo Liu,Peipei Wu,Guangyao Li,Zhenbo Li,Wenwu Wang |
発行日 | 2023-10-11 14:15:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google