Sheet Music Transformer ++: End-to-End Full-Page Optical Music Recognition for Pianoform Sheet Music

要約

光学式音楽認識は大幅に進歩した分野であり、楽譜を効果的​​にデジタル形式に転写する正確なシステムをもたらします。
それにもかかわらず、OMR がその可能性を最大限に発揮することを妨げるいくつかの制限がまだあります。
具体的には、最先端の OMR は依然として全ページの転写を実行するために多段階のパイプラインに依存しており、モノラルの場合のみ実証されており、非常に関連性の高い彫刻が残されています。
この研究では、事前のレイアウト分析ステップを必要とせずにフルページのポリフォニック楽譜を転記できるエンドツーエンドのモデルである Sheet Music Transformer++ を紹介します。
これは、合成データ生成を備えた広範なカリキュラムの学習ベースの事前トレーニングのおかげで実現されます。
私たちは、公開されているポリフォニック転写データセットのフルページ拡張に対していくつかの実験を行います。
実験結果により、このモデルが全ページのピアノ形式スコアを転写する能力があることが確認され、エンドツーエンドの OMR 転写における注目すべきマイルストーンとなっています。

要約(オリジナル)

Optical Music Recognition is a field that has progressed significantly, bringing accurate systems that transcribe effectively music scores into digital formats. Despite this, there are still several limitations that hinder OMR from achieving its full potential. Specifically, state of the art OMR still depends on multi-stage pipelines for performing full-page transcription, as well as it has only been demonstrated in monophonic cases, leaving behind very relevant engravings. In this work, we present the Sheet Music Transformer++, an end-to-end model that is able to transcribe full-page polyphonic music scores without the need of a previous Layout Analysis step. This is done thanks to an extensive curriculum learning-based pretraining with synthetic data generation. We conduct several experiments on a full-page extension of a public polyphonic transcription dataset. The experimental outcomes confirm that the model is competent at transcribing full-page pianoform scores, marking a noteworthy milestone in end-to-end OMR transcription.

arxiv情報

著者 Antonio Ríos-Vila,Jorge Calvo-Zaragoza,David Rizo,Thierry Paquet
発行日 2024-05-21 08:16:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク