Revisit Weakly-Supervised Audio-Visual Video Parsing from the Language Perspective

要約

我々は、オーディオ/ビジュアルモダリティにおけるすべてのイベントを識別して位置を特定することを目的とした、弱教師付きオーディオビジュアルビデオ解析タスク(AVVP)に焦点を当てます。
以前の研究では、モダリティ全体にわたるビデオレベルの全体的なラベルノイズ除去のみに焦点を当てていましたが、隣接するビデオセグメント(つまり、1秒のビデオクリップ)に異なるイベントが含まれる可能性があるセグメントレベルのラベルノイズは見落とされていました。
ただし、そのラベルはビデオ内で発生するイベントの任意の組み合わせである可能性があるため、セグメント内のイベントを認識することは困難です。
この問題に対処するために、言語は固定ラベルを超えてさまざまなイベントが各セグメントにどのように現れるかを自由に記述することができるため、言語の観点から AVVP に取り組むことを検討します。
具体的には、各ビデオのイベント出現のすべてのケースを説明する言語プロンプトを設計します。
次に、言語プロンプトとセグメント間の類似性が計算され、最も類似したプロンプトのイベントがセグメント レベルのラベルとみなされます。
さらに、ラベルが間違っているセグメントに対処するために、信頼性の低いセグメントに対して動的再重み付けを実行してラベルを調整することを提案します。
実験によれば、私たちのシンプルかつ効果的なアプローチは、最先端の方法を大幅に上回っています。

要約(オリジナル)

We focus on the weakly-supervised audio-visual video parsing task (AVVP), which aims to identify and locate all the events in audio/visual modalities. Previous works only concentrate on video-level overall label denoising across modalities, but overlook the segment-level label noise, where adjacent video segments (i.e., 1-second video clips) may contain different events. However, recognizing events in the segment is challenging because its label could be any combination of events that occur in the video. To address this issue, we consider tackling AVVP from the language perspective, since language could freely describe how various events appear in each segment beyond fixed labels. Specifically, we design language prompts to describe all cases of event appearance for each video. Then, the similarity between language prompts and segments is calculated, where the event of the most similar prompt is regarded as the segment-level label. In addition, to deal with the mislabeled segments, we propose to perform dynamic re-weighting on the unreliable segments to adjust their labels. Experiments show that our simple yet effective approach outperforms state-of-the-art methods by a large margin.

arxiv情報

著者 Yingying Fan,Yu Wu,Yutian Lin,Bo Du
発行日 2023-06-21 13:49:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク