Passage Summarization with Recurrent Models for Audio-Sheet Music Retrieval

要約

クロスモーダル音楽検索の多くのアプリケーションは、楽譜の画像をオーディオ録音に接続することに関連しています。
これに対する典型的な最近のアプローチは、ディープ ニューラル ネットワークを介して、適切な類似構造によってオーディオと楽譜の固定サイズの短い断片を相互に関連付ける結合埋め込み空間を学習することです。
ただし、この戦略から生じる 2 つの課題は、ネットワークをトレーニングするための強力に調整されたデータの要件と、ローカルおよびグローバルのテンポの違いによって引き起こされる、オーディオと楽譜の断片の間の音楽コンテンツの固有の不一致です。
この論文では、対応するオーディオと楽譜の長いパッセージを要約できる結合埋め込みを学習するクロスモーダルリカレント ネットワークを設計することで、これら 2 つの欠点に対処します。
私たちの方法の利点は、弱く調整されたオーディオと楽譜のペアだけを必要とすること、およびリカレント ネットワークがオーディオと楽譜の間のテンポの変動によって引き起こされる非線形性を処理できることです。
私たちは、合成および本物のピアノのデータと楽譜に対して多くの実験を行い、提案したリカレント法がすべての可能な構成でより正確な検索につながることを示しました。

要約(オリジナル)

Many applications of cross-modal music retrieval are related to connecting sheet music images to audio recordings. A typical and recent approach to this is to learn, via deep neural networks, a joint embedding space that correlates short fixed-size snippets of audio and sheet music by means of an appropriate similarity structure. However, two challenges that arise out of this strategy are the requirement of strongly aligned data to train the networks, and the inherent discrepancies of musical content between audio and sheet music snippets caused by local and global tempo differences. In this paper, we address these two shortcomings by designing a cross-modal recurrent network that learns joint embeddings that can summarize longer passages of corresponding audio and sheet music. The benefits of our method are that it only requires weakly aligned audio-sheet music pairs, as well as that the recurrent network handles the non-linearities caused by tempo variations between audio and sheet music. We conduct a number of experiments on synthetic and real piano data and scores, showing that our proposed recurrent method leads to more accurate retrieval in all possible configurations.

arxiv情報

著者 Luis Carvalho,Gerhard Widmer
発行日 2023-09-21 14:30:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG, cs.SD, eess.AS パーマリンク