LOAF-M2L: Joint Learning of Wording and Formatting for Singable Melody-to-Lyric Generation

要約

メロディーから歌詞への生成に関するこれまでの研究にも関わらず、生成された歌詞とメロディーの間には依然として大きな互換性のギャップがあり、出力の歌いやすさに悪影響を及ぼしています。
この論文は、メロディから歌詞へのトレーニング (LOAF-M2L) 中に語句と書式設定を共同で学習することで、歌いやすい歌詞を生成する新しいアプローチで歌いやすさのギャップを埋めます。
一般領域の事前トレーニング後、私たちが提案するモデルは、まず大規模なテキストのみの歌詞コーパスから長さの認識を取得します。
次に、メロディー対歌詞トレーニング中のメロディーと歌詞の関係に関する音楽学的研究に基づいた新しい目標を導入します。これにより、モデルはメロディーのきめ細かいフォーマット要件を学習できるようになります。
私たちのモデルは、単純な微調整と比較して、テキストの流暢さを犠牲にすることなく、出力の行数および行ごとの音節要件において 3.75% および 21.44% の絶対精度の向上を達成します。
さらに、私たちのモデルは、主観的評価において、最先端のメロディーから歌詞への生成モデルと比較して、音楽と歌詞の互換性と全体的な品質が 63.92% および 74.18% 相対的に向上していることを実証し、フォーマット学習の重要性を強調しています。

要約(オリジナル)

Despite previous efforts in melody-to-lyric generation research, there is still a significant compatibility gap between generated lyrics and melodies, negatively impacting the singability of the outputs. This paper bridges the singability gap with a novel approach to generating singable lyrics by jointly Learning wOrding And Formatting during Melody-to-Lyric training (LOAF-M2L). After general-domain pretraining, our proposed model acquires length awareness first from a large text-only lyric corpus. Then, we introduce a new objective informed by musicological research on the relationship between melody and lyrics during melody-to-lyric training, which enables the model to learn the fine-grained format requirements of the melody. Our model achieves 3.75% and 21.44% absolute accuracy gains in the outputs’ number-of-line and syllable-per-line requirements compared to naive fine-tuning, without sacrificing text fluency. Furthermore, our model demonstrates a 63.92% and 74.18% relative improvement of music-lyric compatibility and overall quality in the subjective evaluation, compared to the state-of-the-art melody-to-lyric generation model, highlighting the significance of formatting learning.

arxiv情報

著者 Longshen Ou,Xichu Ma,Ye Wang
発行日 2023-07-05 09:42:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク