Synchformer: Efficient Synchronization from Sparse Cues

要約

私たちの目的は、同期キューがまばらな可能性がある YouTube などの「自然な」ビデオに焦点を当てたオーディオとビジュアルの同期です。
私たちの貢献には、新しいオーディオビジュアル同期モデルと、マルチモーダルなセグメントレベルの対照的な事前トレーニングを通じて同期モデリングから特徴抽出を分離するトレーニングが含まれます。
このアプローチは、密な設定と疎な設定の両方で最先端のパフォーマンスを実現します。
また、同期モデルのトレーニングを 100 万規模の「野生の」データセットである AudioSet に拡張し、解釈可能性のための証拠帰属手法を調査し、同期モデルの新しい機能であるオーディオとビジュアルの同期性を探索します。

要約(オリジナル)

Our objective is audio-visual synchronization with a focus on ‘in-the-wild’ videos, such as those on YouTube, where synchronization cues can be sparse. Our contributions include a novel audio-visual synchronization model, and training that decouples feature extraction from synchronization modelling through multi-modal segment-level contrastive pre-training. This approach achieves state-of-the-art performance in both dense and sparse settings. We also extend synchronization model training to AudioSet a million-scale ‘in-the-wild’ dataset, investigate evidence attribution techniques for interpretability, and explore a new capability for synchronization models: audio-visual synchronizability.

arxiv情報

著者 Vladimir Iashin,Weidi Xie,Esa Rahtu,Andrew Zisserman
発行日 2024-01-29 18:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク