Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription

要約

最先端のエンドツーエンドの光学式音楽認識 (OMR) は、これまで主にモノフォニック転写技術を使用して、ポリフォニーなどの複雑な楽譜レイアウトを処理するために、単純化や特定の適応に頼って実行されてきました。
これらのアプローチは、有効性にもかかわらず、スケーラビリティと制限に関連する課題を意味します。
この論文では、モノフォニック戦略のみに依存せずに複雑な楽譜を転写するように設計された初のエンドツーエンド OMR モデルである Sheet Music Transformer について説明します。
私たちのモデルは、入力画像から標準デジタル音楽エンコード形式での楽譜転写を予測する、Transformer ベースの画像からシーケンスへのフレームワークを採用しています。
私たちのモデルは 2 つのポリフォニック音楽データセットでテストされ、これらの複雑な音楽構造を効果的に処理できることが証明されました。
実験結果は、モデルの能力を示すだけでなく、それが最先端の方法よりも優れていることも示し、したがってエンドツーエンドの OMR 転写の進歩に貢献します。

要約(オリジナル)

State-of-the-art end-to-end Optical Music Recognition (OMR) has, to date, primarily been carried out using monophonic transcription techniques to handle complex score layouts, such as polyphony, often by resorting to simplifications or specific adaptations. Despite their efficacy, these approaches imply challenges related to scalability and limitations. This paper presents the Sheet Music Transformer, the first end-to-end OMR model designed to transcribe complex musical scores without relying solely on monophonic strategies. Our model employs a Transformer-based image-to-sequence framework that predicts score transcriptions in a standard digital music encoding format from input images. Our model has been tested on two polyphonic music datasets and has proven capable of handling these intricate music structures effectively. The experimental outcomes not only indicate the competence of the model, but also show that it is better than the state-of-the-art methods, thus contributing to advancements in end-to-end OMR transcription.

arxiv情報

著者 Antonio Ríos-Vila,Jorge Calvo-Zaragoza,Thierry Paquet
発行日 2024-02-12 11:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク