要約
対照学習は、画像キャプション検索やオーディオビジュアル表現学習など、様々な領域にわたってマルチモーダル表現を学習する強力な方法である。本研究では、これらの知見が音楽ビデオのドメインに一般化するかどうかを調べる。具体的には、オーディオモダリティとビデオモダリティの二重エンコーダを作成し、双方向コントラスト損失を用いて学習する。実験では、550,000のミュージックビデオを含む業界データセットと、公開されているMillion Song Datasetを使用し、音楽のタグ付けとジャンル分類という下流のタスクで、学習された表現の品質を評価する。その結果、対照的な微調整を行わない事前学習済みネットワークは、両タスクで評価した場合、我々の対照的学習アプローチを上回ることが示された。音楽ビデオにおいて対照学習がうまくいかなかった理由をより深く理解するために、学習された表現の質的分析を行い、対照学習が2つのモダリティからの埋め込みを統合することが困難な理由を明らかにする。これらの知見に基づき、今後の研究の方向性について概説する。我々の結果の再現性を容易にするため、コードと事前学習済みモデルを共有する。
要約(オリジナル)
Contrastive learning is a powerful way of learning multimodal representations across various domains such as image-caption retrieval and audio-visual representation learning. In this work, we investigate if these findings generalize to the domain of music videos. Specifically, we create a dual en-coder for the audio and video modalities and train it using a bidirectional contrastive loss. For the experiments, we use an industry dataset containing 550 000 music videos as well as the public Million Song Dataset, and evaluate the quality of learned representations on the downstream tasks of music tagging and genre classification. Our results indicate that pre-trained networks without contrastive fine-tuning outperform our contrastive learning approach when evaluated on both tasks. To gain a better understanding of the reasons contrastive learning was not successful for music videos, we perform a qualitative analysis of the learned representations, revealing why contrastive learning might have difficulties uniting embeddings from two modalities. Based on these findings, we outline possible directions for future work. To facilitate the reproducibility of our results, we share our code and the pre-trained model.
arxiv情報
著者 | Karel Veldkamp,Mariya Hendriksen,Zoltán Szlávik,Alexander Keijser |
発行日 | 2023-09-01 09:08:21+00:00 |
arxivサイト | arxiv_id(pdf) |