要約
オーディオビジュアル表現をトレーニングするために、Masked Audio-Video Learners (MAViL) を提示します。
私たちのアプローチは、(1) マスクされたオーディオとビデオの入力データの再構築、(2) マスキングによるモーダル内およびモーダル間の対照学習、(3) ジョイント オーディオの再構築による自己トレーニングの 3 つの補完的な形式の自己監督を使用して学習します。
最初の 2 つの目的から学習したビデオのコンテキスト化された機能。
MAViL を使用した事前トレーニングは、モデルが視聴覚分類および検索タスクでうまく機能することを可能にするだけでなく、微調整または推論のために他のモダリティからの情報を使用することなく、各モダリティの表現を分離して改善します。
経験的に、MAViL は AudioSet (53.1 mAP) と VGGSound (67.1% の精度) に新しい最先端技術を設定します。
初めて、これらのベンチマークで、自己監視型の視聴覚モデルが外部監視を使用するものよりも優れています。
コードはすぐに利用可能になります。
要約(オリジナル)
We present Masked Audio-Video Learners (MAViL) to train audio-visual representations. Our approach learns with three complementary forms of self-supervision: (1) reconstruction of masked audio and video input data, (2) intra- and inter-modal contrastive learning with masking, and (3) self-training by reconstructing joint audio-video contextualized features learned from the first two objectives. Pre-training with MAViL not only enables the model to perform well in audio-visual classification and retrieval tasks but also improves representations of each modality in isolation, without using information from the other modality for fine-tuning or inference. Empirically, MAViL sets a new state-of-the-art on AudioSet (53.1 mAP) and VGGSound (67.1% accuracy). For the first time, a self-supervised audio-visual model outperforms ones that use external supervision on these benchmarks. Code will be available soon.
arxiv情報
| 著者 | Po-Yao Huang,Vasu Sharma,Hu Xu,Chaitanya Ryali,Haoqi Fan,Yanghao Li,Shang-Wen Li,Gargi Ghosh,Jitendra Malik,Christoph Feichtenhofer | 
| 発行日 | 2022-12-15 18:59:59+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
