このホワイト ペーパーの目的は、「実際の」一般的なビデオの視聴覚同期です。
このようなビデオの場合、同期キューに利用できるイベントは空間的に小さく、数秒間のビデオ クリップ中にまれにしか発生しない可能性があります。つまり、同期信号は「空間と時間においてまばら」です。
これは、音声と映像の対応が時間と空間の両方で密集している、トーキング ヘッドのビデオを同期する場合とは対照的です。
(i) まばらな同期信号に必要なより長い時間シーケンスを処理するために、「セレクター」を使用して長いオーディオおよびビジュアル ストリームを小さなシーケンスに抽出するマルチモーダル トランスフォーマー モデルを設計します。
(iv) 提案されたモデルの有効性は、密なデータセットと疎なデータセットの両方で定量的および定性的に示されます。
プロジェクトページ: v-iashin.github.io/SparseSync
The objective of this paper is audio-visual synchronisation of general videos ‘in the wild’. For such videos, the events that may be harnessed for synchronisation cues may be spatially small and may occur only infrequently during a many seconds-long video clip, i.e. the synchronisation signal is ‘sparse in space and time’. This contrasts with the case of synchronising videos of talking heads, where audio-visual correspondence is dense in both time and space. We make four contributions: (i) in order to handle longer temporal sequences required for sparse synchronisation signals, we design a multi-modal transformer model that employs ‘selectors’ to distil the long audio and visual streams into small sequences that are then used to predict the temporal offset between streams. (ii) We identify artefacts that can arise from the compression codecs used for audio and video and can be used by audio-visual models in training to artificially solve the synchronisation task. (iii) We curate a dataset with only sparse in time and space synchronisation signals; and (iv) the effectiveness of the proposed model is shown on both dense and sparse datasets quantitatively and qualitatively. Project page: v-iashin.github.io/SparseSync
著者 | Vladimir Iashin,Weidi Xie,Esa Rahtu,Andrew Zisserman |
発行日 | 2022-10-13 14:25:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google