Synthesising Handwritten Music with GANs: A Comprehensive Evaluation of CycleWGAN, ProGAN, and DCGAN

要約

手書き楽譜の生成は、最適なパフォーマンスを得るために大規模で多様なデータセットに依存する光学式音楽認識 (OMR) システムを強化するための重要なステップです。
しかし、アーカイブでよく見つかる手書きの楽譜は、その壊れやすさ、多様な手書きスタイル、および画質のため、デジタル化には課題があります。
この論文では、敵対的生成ネットワーク (GAN) を適用してリアルな手書きの楽譜を合成することで、データ不足の問題に対処します。
DCGAN、ProGAN、CycleWGAN の 3 つの GAN モデルの包括的な評価を提供し、多様で高品質の手書き音楽イメージを生成する能力を比較します。
提案された CycleWGAN モデルは、スタイルの伝達とトレーニングの安定性を強化し、定性的および定量的評価の両方で DCGAN および ProGAN を大幅に上回っています。
CycleWGAN は、FID スコア 41.87、IS 2.29、KID 0.05 という優れたパフォーマンスを達成しており、OMR システムを改善するための有望なソリューションとなっています。

要約(オリジナル)

The generation of handwritten music sheets is a crucial step toward enhancing Optical Music Recognition (OMR) systems, which rely on large and diverse datasets for optimal performance. However, handwritten music sheets, often found in archives, present challenges for digitisation due to their fragility, varied handwriting styles, and image quality. This paper addresses the data scarcity problem by applying Generative Adversarial Networks (GANs) to synthesise realistic handwritten music sheets. We provide a comprehensive evaluation of three GAN models – DCGAN, ProGAN, and CycleWGAN – comparing their ability to generate diverse and high-quality handwritten music images. The proposed CycleWGAN model, which enhances style transfer and training stability, significantly outperforms DCGAN and ProGAN in both qualitative and quantitative evaluations. CycleWGAN achieves superior performance, with an FID score of 41.87, an IS of 2.29, and a KID of 0.05, making it a promising solution for improving OMR systems.

arxiv情報

著者 Elona Shatri,Kalikidhar Palavala,George Fazekas
発行日 2024-11-25 14:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク