要約
さまざまなオーディオビデオのセマンティクスを時間をかけて継続的に学習することは、進化し続ける世界におけるオーディオ関連の推論タスクにとって非常に重要です。
ただし、これは自明ではなく、オーディオとビデオのペア間の疎な時空間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関の上書きという 2 つの重大な課題を引き起こします。
この問題に取り組むために、我々は 2 つの斬新なアイデアを備えた新しい継続的なオーディオビデオ事前トレーニング方法を提案します。 (1) ローカライズされたパッチ重要度スコアリング: マルチモーダル エンコーダーを導入して各パッチの重要度スコアを決定し、意味的に絡み合ったオーディオビデオを強調します。
パッチ。
(2) 再生ガイド付き相関評価: ドリフトによる以前に学習した視聴覚知識の破損を減らすために、過去のステップと現在のパッチの相関を評価し、過去のステップと高い相関を示すパッチを特定することを提案します。
2 つのアイデアの結果に基づいて、効果的な継続的なオーディオビデオ事前トレーニングのために確率的パッチ選択を実行します。
複数のベンチマークでの実験検証により、私たちの方法は強力な継続学習ベースラインと比較して、ゼロショット検索タスクで 3.69%p の相対的なパフォーマンス向上を達成しながら、メモリ消費量を最大 45% 削減することが示されています。
要約(オリジナル)
Continuously learning a variety of audio-video semantics over time is crucial for audio-related reasoning tasks in our ever-evolving world. However, this is a nontrivial problem and poses two critical challenges: sparse spatio-temporal correlation between audio-video pairs and multimodal correlation overwriting that forgets audio-video relations. To tackle this problem, we propose a new continual audio-video pre-training method with two novel ideas: (1) Localized Patch Importance Scoring: we introduce a multimodal encoder to determine the importance score for each patch, emphasizing semantically intertwined audio-video patches. (2) Replay-guided Correlation Assessment: to reduce the corruption of previously learned audiovisual knowledge due to drift, we propose to assess the correlation of the current patches on the past steps to identify the patches exhibiting high correlations with the past steps. Based on the results from the two ideas, we perform probabilistic patch selection for effective continual audio-video pre-training. Experimental validation on multiple benchmarks shows that our method achieves a 3.69%p of relative performance gain in zero-shot retrieval tasks compared to strong continual learning baselines, while reducing memory consumption by ~45%.
arxiv情報
著者 | Jaewoo Lee,Jaehong Yoon,Wonjae Kim,Yunji Kim,Sung Ju Hwang |
発行日 | 2024-05-28 15:36:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google