要約
この論文では、音楽の事前トレーニングへの大規模言語モデル (LLM) の適用について検討します。
音楽モデリングにおける MIDI の一般的な使用は十分に確立されていますが、私たちの調査結果は、LLM が本質的に ABC 記譜法との互換性が高く、LLM の設計と長所により密接に一致し、それによって音楽作曲におけるモデルのパフォーマンスを向上させることを示唆しています。
生成中に異なるトラックからの不整合な小節に関連する課題に対処するために、複数の音楽トラックにわたる一貫性を維持することを目的とした同期マルチトラック ABC 記譜法 (SMT-ABC 記譜法) の開発を提案します。
私たちの貢献には、最大 8192 個のトークンを処理できる一連のモデルが含まれており、トレーニング セット内のシンボリック音楽データの 90% をカバーしています。
さらに、モデルのパフォーマンスに対する記号音楽スケーリング法 (SMS 法) の影響を調査します。
この結果は、音楽生成における将来の研究の有望な方向性を示しており、オープンソースへの貢献を通じてコミュニティ主導の研究に広範なリソースを提供します。
要約(オリジナル)
In this paper, we explore the application of Large Language Models (LLMs) to the pre-training of music. While the prevalent use of MIDI in music modeling is well-established, our findings suggest that LLMs are inherently more compatible with ABC Notation, which aligns more closely with their design and strengths, thereby enhancing the model’s performance in musical composition. To address the challenges associated with misaligned measures from different tracks during generation, we propose the development of a Synchronized Multi-Track ABC Notation (SMT-ABC Notation), which aims to preserve coherence across multiple musical tracks. Our contributions include a series of models capable of handling up to 8192 tokens, covering 90% of the symbolic music data in our training set. Furthermore, we explore the implications of the Symbolic Music Scaling Law (SMS Law) on model performance. The results indicate a promising direction for future research in music generation, offering extensive resources for community-led research through our open-source contributions.
arxiv情報
著者 | Xingwei Qu,Yuelin Bai,Yinghao Ma,Ziya Zhou,Ka Man Lo,Jiaheng Liu,Ruibin Yuan,Lejun Min,Xueling Liu,Tianyu Zhang,Xinrun Du,Shuyue Guo,Yiming Liang,Yizhi Li,Shangda Wu,Junting Zhou,Tianyu Zheng,Ziyang Ma,Fengze Han,Wei Xue,Gus Xia,Emmanouil Benetos,Xiang Yue,Chenghua Lin,Xu Tan,Stephen W. Huang,Jie Fu,Ge Zhang |
発行日 | 2024-11-05 15:40:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google