SongComposer: A Large Language Model for Lyric and Melody Composition in Song Generation

要約

私たちは、ソング作曲用に設計された革新的な LLM である SongComposer を紹介します。
LLM の機能を活用することで、象徴的な歌表現のメロディーと歌詞を理解して生成できます。
既存の音楽関連の LLM は音楽を量子化されたオーディオ信号として扱いましたが、そのような暗黙的なエンコードは非効率的なエンコードと柔軟性の低下につながりました。
対照的に、私たちは人間が音楽のために設計した成熟した効率的な方法である象徴的な歌の表現に頼っており、LLM が人間のように明示的に歌を作曲できるようにしています。
実際に、メロディー内の歌詞と 3 つの音符属性 (ピッチ、デュレーション、休符デュレーション) をフォーマットする新しいタプル デザインを設計します。これにより、音楽記号の正しい LLM 理解が保証され、歌詞とメロディーの正確な位置合わせが実現されます。
LLM に基本的な音楽の理解を与えるために、中国語または英語の歌詞、メロディー、および歌詞とメロディーのペアを含む大規模な歌の事前トレーニング データセットである SongCompose-PT を慎重に収集しました。
適切な事前トレーニングの後、慎重に作成された 10,000 個の QA ペアを使用して、LLM に指示に従う機能を与え、さまざまなタスクを解決します。
広範な実験により、SongComposer は、歌詞からメロディーへの生成、メロディーから歌詞への生成、曲の継続、テキストから曲への作成において優れたパフォーマンスを示し、GPT-4 などの高度な LLM を上回ります。

要約(オリジナル)

We present SongComposer, an innovative LLM designed for song composition. It could understand and generate melodies and lyrics in symbolic song representations, by leveraging the capability of LLM. Existing music-related LLM treated the music as quantized audio signals, while such implicit encoding leads to inefficient encoding and poor flexibility. In contrast, we resort to symbolic song representation, the mature and efficient way humans designed for music, and enable LLM to explicitly compose songs like humans. In practice, we design a novel tuple design to format lyric and three note attributes (pitch, duration, and rest duration) in the melody, which guarantees the correct LLM understanding of musical symbols and realizes precise alignment between lyrics and melody. To impart basic music understanding to LLM, we carefully collected SongCompose-PT, a large-scale song pretraining dataset that includes lyrics, melodies, and paired lyrics-melodies in either Chinese or English. After adequate pre-training, 10K carefully crafted QA pairs are used to empower the LLM with the instruction-following capability and solve diverse tasks. With extensive experiments, SongComposer demonstrates superior performance in lyric-to-melody generation, melody-to-lyric generation, song continuation, and text-to-song creation, outperforming advanced LLMs like GPT-4.

arxiv情報

著者 Shuangrui Ding,Zihan Liu,Xiaoyi Dong,Pan Zhang,Rui Qian,Conghui He,Dahua Lin,Jiaqi Wang
発行日 2024-02-27 16:15:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク