Audiovisual Masked Autoencoders

要約

自己教師付き表現学習を改善するために、ビデオに既に存在する視聴覚情報を活用することはできるだろうか?この問いに答えるため、我々は、自然言語や画像理解における同様の手法の成功に動機づけられ、マスクされた自動符号化の枠組みの中で、様々な事前学習アーキテクチャと目的を研究する。我々は、VGGSoundとAudioSetにおいて、最先端技術を凌駕する、視聴覚の下流分類タスクの大幅な改善を達成できることを示す。さらに、1つの視聴覚事前学習モデルを用いて、複数のユニモーダルな下流タスクに対して視聴覚事前学習スキームを活用することができる。さらに、このデータセットのために特別に事前学習することなく、Epic Kitchensで最先端の視聴覚結果を達成し、我々の表現の移植性を実証した。

要約(オリジナル)

Can we leverage the audiovisual information already present in video to improve self-supervised representation learning? To answer this question, we study various pretraining architectures and objectives within the masked autoencoding framework, motivated by the success of similar methods in natural language and image understanding. We show that we can achieve significant improvements on audiovisual downstream classification tasks, surpassing the state-of-the-art on VGGSound and AudioSet. Furthermore, we can leverage our audiovisual pretraining scheme for multiple unimodal downstream tasks using a single audiovisual pretrained model. We additionally demonstrate the transferability of our representations, achieving state-of-the-art audiovisual results on Epic Kitchens without pretraining specifically for this dataset.

arxiv情報

著者 Mariana-Iuliana Georgescu,Eduardo Fonseca,Radu Tudor Ionescu,Mario Lucic,Cordelia Schmid,Anurag Arnab
発行日 2024-01-04 16:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.SD パーマリンク