要約
大規模な言語モデルは、記号音楽の生成など、さまざまな領域にわたって重要な機能を示しています。
ただし、それぞれが制御として異なる形式の音楽情報を必要とする、制御可能な音楽アレンジタスクにこれらの事前トレーニングされたモデルを活用することは、依然として新しい課題です。
この論文では、バンドアレンジメント、ピアノリダクション、ドラムアレンジメント、ボイス分離などの複数のマルチトラックアレンジメントタスクに対して、記号音楽言語モデルの微調整を可能にする統一されたシーケンス間フレームワークを提案します。
私たちの実験では、提案されたアプローチが、4 つのタスクすべてにわたって、タスク固有のベースラインと比較して、より高い音楽品質を一貫して達成できることを示しています。
さらに、プロービング分析に関する追加の実験を通じて、事前トレーニング段階で、タスク固有の微調整だけでは取得するのが難しい、音楽の状態を理解するための必須の知識をモデルに提供することを示しました。
要約(オリジナル)
Large language models have shown significant capabilities across various domains, including symbolic music generation. However, leveraging these pre-trained models for controllable music arrangement tasks, each requiring different forms of musical information as control, remains a novel challenge. In this paper, we propose a unified sequence-to-sequence framework that enables the fine-tuning of a symbolic music language model for multiple multi-track arrangement tasks, including band arrangement, piano reduction, drum arrangement, and voice separation. Our experiments demonstrate that the proposed approach consistently achieves higher musical quality compared to task-specific baselines across all four tasks. Furthermore, through additional experiments on probing analysis, we show the pre-training phase equips the model with essential knowledge to understand musical conditions, which is hard to acquired solely through task-specific fine-tuning.
arxiv情報
著者 | Longshen Ou,Jingwei Zhao,Ziyu Wang,Gus Xia,Ye Wang |
発行日 | 2024-08-27 16:18:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google