要約
オーディオビジュアルビデオの解析は、弱いラベルによってビデオを分類することに重点を置き、イベントをそれぞれの時間的境界に沿って可視、可聴、またはその両方として識別します。
多くの手法では、さまざまなモダリティが整合性を欠いていることが多く、それによってモーダル相互作用中に余分なノイズが発生することを無視しています。
この研究では、イベント予測中に入力を動的に調整することで、異なるモダリティの寄与を平衡化するように設計された、非整合知識のための学習インタラクション手法 (LINK) を導入します。
さらに、他のモダリティからのノイズを軽減するための先験的知識として擬似ラベルの意味情報を活用します。
私たちの実験結果は、私たちのモデルが LLP データセットに対する既存の方法よりも優れていることを示しています。
要約(オリジナル)
Audio-visual video parsing focuses on classifying videos through weak labels while identifying events as either visible, audible, or both, alongside their respective temporal boundaries. Many methods ignore that different modalities often lack alignment, thereby introducing extra noise during modal interaction. In this work, we introduce a Learning Interaction method for Non-aligned Knowledge (LINK), designed to equilibrate the contributions of distinct modalities by dynamically adjusting their input during event prediction. Additionally, we leverage the semantic information of pseudo-labels as a priori knowledge to mitigate noise from other modalities. Our experimental findings demonstrate that our model outperforms existing methods on the LLP dataset.
arxiv情報
著者 | Langyu Wang,Bingke Zhu,Yingying Chen,Jinqiao Wang |
発行日 | 2024-12-30 11:23:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google