MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation

要約

事前トレーニングされた言語モデルは、さまざまな音楽の理解と生成のタスクにおいて目覚ましい結果を達成しました。
しかし、記号的メロディー生成のための既存の事前トレーニング方法は、テキストと音楽の間の領域知識の不一致のため、音符シーケンス内のマルチスケール、多次元の構造情報を捕捉するのに苦労しています。
さらに、利用可能な大規模な象徴的なメロディー データセットが不足しているため、事前トレーニングの改善が制限されます。
この論文では、長期構造を持つメロディーを生成するためのマルチタスク事前トレーニング フレームワークである MelodyGLM を提案します。
メロディック N グラムおよびロング スパン サンプリング戦略を設計して、メロディーのローカルおよびグローバル構造をモデル化するためのローカルおよびグローバルな空白埋めタスクを作成します。
具体的には、メロディーの多次元構造をモデル化するために、ピッチ N グラム、リズム N グラム、およびそれらを組み合わせた N グラムをメロディック N グラムの空白埋めタスクに組み込みます。
この目的を達成するために、私たちは 40 万曲を超えるメロディーを含む大規模な記号メロディー データセット MelodyNet を構築しました。
MelodyNet は、大規模な事前トレーニングとドメイン固有の N-gram レキシコン構築に利用されます。
主観的評価と客観的評価の両方で、MelodyGLM が標準および以前の事前トレーニング方法を超えていることが実証されています。
特に、主観的評価によると、メロディ継続タスクにおいて、MelodyGLM は一貫性、リズミシティ、構造、および全体的な品質において、それぞれ平均 0.82、0.87、0.78、および 0.94 の向上を達成しました。
特に、メロディー修復タスクにおいて、MelodyGLM は人間が作曲したメロディーの品質とほぼ一致しています。

要約(オリジナル)

Pre-trained language models have achieved impressive results in various music understanding and generation tasks. However, existing pre-training methods for symbolic melody generation struggle to capture multi-scale, multi-dimensional structural information in note sequences, due to the domain knowledge discrepancy between text and music. Moreover, the lack of available large-scale symbolic melody datasets limits the pre-training improvement. In this paper, we propose MelodyGLM, a multi-task pre-training framework for generating melodies with long-term structure. We design the melodic n-gram and long span sampling strategies to create local and global blank infilling tasks for modeling the local and global structures in melodies. Specifically, we incorporate pitch n-grams, rhythm n-grams, and their combined n-grams into the melodic n-gram blank infilling tasks for modeling the multi-dimensional structures in melodies. To this end, we have constructed a large-scale symbolic melody dataset, MelodyNet, containing more than 0.4 million melody pieces. MelodyNet is utilized for large-scale pre-training and domain-specific n-gram lexicon construction. Both subjective and objective evaluations demonstrate that MelodyGLM surpasses the standard and previous pre-training methods. In particular, subjective evaluations show that, on the melody continuation task, MelodyGLM gains average improvements of 0.82, 0.87, 0.78, and 0.94 in consistency, rhythmicity, structure, and overall quality, respectively. Notably, MelodyGLM nearly matches the quality of human-composed melodies on the melody inpainting task.

arxiv情報

著者 Xinda Wu,Zhijie Huang,Kejun Zhang,Jiaxing Yu,Xu Tan,Tieyao Zhang,Zihao Wang,Lingyun Sun
発行日 2023-09-20 10:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.MM, cs.SD, eess.AS パーマリンク