要約
私たちの目的は、同期キューがまばらな可能性がある YouTube などの「自然な」ビデオに焦点を当てたオーディオとビジュアルの同期です。
私たちの貢献には、新しいオーディオビジュアル同期モデルと、マルチモーダルなセグメントレベルの対照的な事前トレーニングを通じて同期モデリングから特徴抽出を分離するトレーニングが含まれます。
このアプローチは、密な設定と疎な設定の両方で最先端のパフォーマンスを実現します。
また、同期モデルのトレーニングを 100 万規模の「野生の」データセットである AudioSet に拡張し、解釈可能性のための証拠帰属手法を調査し、同期モデルの新しい機能であるオーディオとビジュアルの同期性を探索します。
要約(オリジナル)
Our objective is audio-visual synchronization with a focus on ‘in-the-wild’ videos, such as those on YouTube, where synchronization cues can be sparse. Our contributions include a novel audio-visual synchronization model, and training that decouples feature extraction from synchronization modelling through multi-modal segment-level contrastive pre-training. This approach achieves state-of-the-art performance in both dense and sparse settings. We also extend synchronization model training to AudioSet a million-scale ‘in-the-wild’ dataset, investigate evidence attribution techniques for interpretability, and explore a new capability for synchronization models: audio-visual synchronizability.
arxiv情報
著者 | Vladimir Iashin,Weidi Xie,Esa Rahtu,Andrew Zisserman |
発行日 | 2024-01-29 18:59:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google