オーディオビジュアルビデオ解析 (AVVP) は、正確な時間境界を持つオーディオおよびビジュアル イベント ラベルを認識することを目的としていますが、オーディオまたはビジュアル モダリティにはイベント ラベルが 1 つしか含まれておらず、使用可能なビデオ ラベル全体のみが含まれる可能性があるため、これは非常に困難です。
既存のラベルノイズ除去モデルは、多くの場合、ノイズ除去プロセスを別個の前処理ステップとして扱い、ラベルノイズ除去と AVVP タスク間の切り離しにつながります。
このギャップを埋めるために、新しい結合強化学習ベースのラベルノイズ除去アプローチ (RLLD) を提案します。
ラベルのノイズ除去ポリシーの学習を直接導く、新しい AVVP 検証とソフト相互報酬フィードバック メカニズムを導入します。
AVVP タスクに関する広範な実験により、ラベルのノイズ除去技術と比較して、提案した方法の優れたパフォーマンスが実証されました。
さらに、ラベルのノイズ除去手法を他の AVVP モデルに組み込むことで、解析結果をさらに強化できることがわかりました。
Audio-visual video parsing (AVVP) aims to recognize audio and visual event labels with precise temporal boundaries, which is quite challenging since audio or visual modality might include only one event label with only the overall video labels available. Existing label denoising models often treat the denoising process as a separate preprocessing step, leading to a disconnect between label denoising and AVVP tasks. To bridge this gap, we present a novel joint reinforcement learning-based label denoising approach (RLLD). This approach enables simultaneous training of both label denoising and video parsing models through a joint optimization strategy. We introduce a novel AVVP-validation and soft inter-reward feedback mechanism that directly guides the learning of label denoising policy. Extensive experiments on AVVP tasks demonstrate the superior performance of our proposed method compared to label denoising techniques. Furthermore, by incorporating our label denoising method into other AVVP models, we find that it can further enhance parsing results.
著者 | Yongbiao Gao,Xiangcheng Sun,Guohua Lv,Deng Yu,Sijiu Niu |
発行日 | 2024-12-27 10:05:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google