Towards Robust and Truly Large-Scale Audio-Sheet Music Retrieval

要約

マルチモーダル音楽情報検索のさまざまなアプリケーションは、楽譜 (画像) の大規模なコレクションを対応するオーディオ録音に結び付ける問題、つまり、同じ音楽コンテンツを参照するオーディオと楽譜の抜粋のペアを識別する問題を中心としています。
このタスクに対する典型的かつ最新のアプローチの 1 つは、クロスモーダル深層学習アーキテクチャを採用して、オーディオと楽譜の画像という 2 つの異なるモダリティをリンクする共同埋め込み空間を学習します。
この面では過去数年間で着実に改善が見られましたが、多くの未解決の問題が依然としてこの方法論の大規模な採用を妨げています。
この記事では、ディープラーニング手法によるオーディオ楽譜検索の現在の開発について、洞察力に富んだ調査を提供することを試みます。
まず、実際のシナリオにおける堅牢かつ大規模なクロスモーダル音楽検索に向けた一連の主な課題を特定します。
次に、これらの課題のいくつかに対処するためにこれまでに講じた手順を強調し、いくつかの側面に沿った段階的な改善を文書化します。
最後に、クロスモーダル音楽検索のための統一された堅牢な方法論への道を開くために、残りの課題を分析し、それらを解決するためのアイデアを提示します。

要約(オリジナル)

A range of applications of multi-modal music information retrieval is centred around the problem of connecting large collections of sheet music (images) to corresponding audio recordings, that is, identifying pairs of audio and score excerpts that refer to the same musical content. One of the typical and most recent approaches to this task employs cross-modal deep learning architectures to learn joint embedding spaces that link the two distinct modalities – audio and sheet music images. While there has been steady improvement on this front over the past years, a number of open problems still prevent large-scale employment of this methodology. In this article we attempt to provide an insightful examination of the current developments on audio-sheet music retrieval via deep learning methods. We first identify a set of main challenges on the road towards robust and large-scale cross-modal music retrieval in real scenarios. We then highlight the steps we have taken so far to address some of these challenges, documenting step-by-step improvement along several dimensions. We conclude by analysing the remaining challenges and present ideas for solving these, in order to pave the way to a unified and robust methodology for cross-modal music retrieval.

arxiv情報

著者 Luis Carvalho,Gerhard Widmer
発行日 2023-09-21 15:11:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG, cs.SD, eess.AS パーマリンク