Self-Supervised Contrastive Learning for Robust Audio-Sheet Music Retrieval Systems

要約

楽譜画像をオーディオ録音にリンクすることは、効率的なクロスモーダル音楽検索システムの開発にとって依然として重要な問題です。
このタスクに対する基本的なアプローチの 1 つは、オーディオと楽譜の短い断片を接続できるディープ ニューラル ネットワークを介してクロスモーダル埋め込み空間を学習することです。
ただし、実際の音楽コンテンツからの注釈付きデータの不足は、そのような方法を実際の検索シナリオに一般化する能力に影響を与えます。
この研究では、トレーニング前のステップとしてネットワークを大量の実際の音楽データにさらし、両方のモダリティの断片のランダムに拡張されたビューを対比することにより、自己教師あり対比学習でこの制限を軽減できるかどうかを調査します。
音声と楽譜の画像。
合成ピアノ データと実際のピアノ データに関する数多くの実験を通じて、事前トレーニングされたモデルは、すべてのシナリオと事前トレーニング設定において、より高い精度でスニペットを取得できることを示しました。
これらの結果に勇気づけられて、私たちはクロスモーダルピース識別のより高いレベルのタスクにスニペットの埋め込みを採用し、いくつかの検索構成でさらなる実験を実施します。
このタスクでは、実際の音楽データが存在する場合、検索品質が 30% から 100% まで向上することがわかります。
次に、マルチモーダル音楽検索モデルにおける注釈付きデータの不足を軽減するための自己教師あり対比学習の可能性を主張して結論とします。

要約(オリジナル)

Linking sheet music images to audio recordings remains a key problem for the development of efficient cross-modal music retrieval systems. One of the fundamental approaches toward this task is to learn a cross-modal embedding space via deep neural networks that is able to connect short snippets of audio and sheet music. However, the scarcity of annotated data from real musical content affects the capability of such methods to generalize to real retrieval scenarios. In this work, we investigate whether we can mitigate this limitation with self-supervised contrastive learning, by exposing a network to a large amount of real music data as a pre-training step, by contrasting randomly augmented views of snippets of both modalities, namely audio and sheet images. Through a number of experiments on synthetic and real piano data, we show that pre-trained models are able to retrieve snippets with better precision in all scenarios and pre-training configurations. Encouraged by these results, we employ the snippet embeddings in the higher-level task of cross-modal piece identification and conduct more experiments on several retrieval configurations. In this task, we observe that the retrieval quality improves from 30% up to 100% when real music data is present. We then conclude by arguing for the potential of self-supervised contrastive learning for alleviating the annotated data scarcity in multi-modal music retrieval models.

arxiv情報

著者 Luis Carvalho,Tobias Washüttl,Gerhard Widmer
発行日 2023-09-21 14:54:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG, cs.SD, eess.AS パーマリンク