TrOMR:Transformer-Based Polyphonic Optical Music Recognition

要約

光学式音楽認識 (OMR) は音楽における重要な技術であり、長い間研究されてきました。
OMR に対するこれまでのアプローチは、通常、画像の理解には CNN を、音楽記号の分類には RNN をベースにしていました。
この論文では、TrOMR と呼ばれる、エンドツーエンドのポリフォニック OMR に対する優れたグローバル知覚機能を備えたトランスベースのアプローチを提案します。
また、複雑な楽譜の認識精度を向上させるための、新しい一貫性損失関数とデータ注釈の合理的なアプローチも紹介します。
広範な実験により、特に現実世界のシナリオにおいて、TrOMR が現在の OMR 手法よりも優れたパフォーマンスを発揮することが実証されています。
また、TrOMR システムを開発し、現実世界の全ページ楽譜用のカメラ シーン データセットを構築します。
コードとデータセットは再現可能に提供されます。

要約(オリジナル)

Optical Music Recognition (OMR) is an important technology in music and has been researched for a long time. Previous approaches for OMR are usually based on CNN for image understanding and RNN for music symbol classification. In this paper, we propose a transformer-based approach with excellent global perceptual capability for end-to-end polyphonic OMR, called TrOMR. We also introduce a novel consistency loss function and a reasonable approach for data annotation to improve recognition accuracy for complex music scores. Extensive experiments demonstrate that TrOMR outperforms current OMR methods, especially in real-world scenarios. We also develop a TrOMR system and build a camera scene dataset for full-page music scores in real-world. The code and datasets will be made available for reproducibility.

arxiv情報

著者 Yixuan Li,Huaping Liu,Qiang Jin,Miaomiao Cai,Peng Li
発行日 2023-08-18 08:06:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク