要約
ビデオの音源をローカライズするために、オーディオビジュアル表現学習のためのシンプルで効果的な自己監視フレームワークを提示します。
有用な表現の学習を可能にするものを理解するために、データ拡張の効果を体系的に調査し、(1) データ拡張の構成が重要な役割を果たしていることを明らかにします。
\em 変換不変性});
(2) 幾何学的な一貫性を強制すると、学習された表現の品質が大幅に向上します。つまり、検出された音源は、入力ビデオ フレームに適用される同じ変換に従う必要があります ~({\em 変換の等価性})。
広範な実験により、Flickr-SoundNet と VGG-Sound という 2 つのサウンド ローカリゼーション ベンチマークで、モデルが以前の方法よりも大幅に優れていることが実証されました。
さらに、オーディオ検索とクロスモーダル検索タスクも評価します。
どちらの場合も、自己教師ありモデルは優れた検索パフォーマンスを示し、音声検索の教師ありアプローチとさえ競合します。
これは、提案されたフレームワークが強力なマルチモーダル表現を学習することを明らかにしています。これは、健全なローカリゼーションとさらなるアプリケーションへの一般化に有益です。
\textit{すべてのコードが利用可能になります}.
要約(オリジナル)
We present a simple yet effective self-supervised framework for audio-visual representation learning, to localize the sound source in videos. To understand what enables to learn useful representations, we systematically investigate the effects of data augmentations, and reveal that (1) composition of data augmentations plays a critical role, i.e. explicitly encouraging the audio-visual representations to be invariant to various transformations~({\em transformation invariance}); (2) enforcing geometric consistency substantially improves the quality of learned representations, i.e. the detected sound source should follow the same transformation applied on input video frames~({\em transformation equivariance}). Extensive experiments demonstrate that our model significantly outperforms previous methods on two sound localization benchmarks, namely, Flickr-SoundNet and VGG-Sound. Additionally, we also evaluate audio retrieval and cross-modal retrieval tasks. In both cases, our self-supervised models demonstrate superior retrieval performances, even competitive with the supervised approach in audio retrieval. This reveals the proposed framework learns strong multi-modal representations that are beneficial to sound localisation and generalization to further applications. \textit{All codes will be available}.
arxiv情報
著者 | Jinxiang Liu,Chen Ju,Weidi Xie,Ya Zhang |
発行日 | 2022-08-15 07:27:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google