Practical End-to-End Optical Music Recognition for Pianoform Music

要約

光学式音楽認識 (OMR) における最近の進歩の大部分は、深層学習手法、特に入力画像を読み取り、トークンの線形シーケンスを生成するエンドツーエンドのパラダイムに従うモデルによって達成されています。
残念ながら、多くの楽譜、特にピアノ音楽は、簡単に線形シーケンスに変換できません。
このため、OMR 研究者は、楽譜作成に広く受け入れられている構造化フォーマットの代わりに、カスタムの線形化エンコーディングを使用するようになりました。
それらの多様性により、OMR システムのパフォーマンスを直接比較することが困難になります。
最近の OMR モデルの進歩を有益な結果に近づけるために: (a) Linearized MusicXML と呼ばれるシーケンシャル形式を定義します。これにより、エンドツーエンドのモデルを直接トレーニングできるようになり、業界標準の MusicXML 形式との緊密な結合性と互換性が維持されます。
(b) OpenScore Lieder corpus に基づいた MusicXML グランド トゥルースを使用して、タイプセット OMR のベンチマーク用の開発およびテスト セットを作成します。
これらには 1,438 および 1,493 のピアノフォーム システムが含まれており、それぞれに IMSLP からのイメージが含まれています。
(c) データセットのベースラインとして機能するエンドツーエンド モデルをトレーニングして微調整し、TEDn メトリックを使用してモデルを評価します。
また、最近公開された合成ピアノ形式データセット GrandStaff に対してモデルをテストし、最先端の結果を上回りました。

要約(オリジナル)

The majority of recent progress in Optical Music Recognition (OMR) has been achieved with Deep Learning methods, especially models following the end-to-end paradigm, reading input images and producing a linear sequence of tokens. Unfortunately, many music scores, especially piano music, cannot be easily converted to a linear sequence. This has led OMR researchers to use custom linearized encodings, instead of broadly accepted structured formats for music notation. Their diversity makes it difficult to compare the performance of OMR systems directly. To bring recent OMR model progress closer to useful results: (a) We define a sequential format called Linearized MusicXML, allowing to train an end-to-end model directly and maintaining close cohesion and compatibility with the industry-standard MusicXML format. (b) We create a dev and test set for benchmarking typeset OMR with MusicXML ground truth based on the OpenScore Lieder corpus. They contain 1,438 and 1,493 pianoform systems, each with an image from IMSLP. (c) We train and fine-tune an end-to-end model to serve as a baseline on the dataset and employ the TEDn metric to evaluate the model. We also test our model against the recently published synthetic pianoform dataset GrandStaff and surpass the state-of-the-art results.

arxiv情報

著者 Jiří Mayer,Milan Straka,Jan Hajič jr.,Pavel Pecina
発行日 2024-03-20 17:26:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.9 パーマリンク