要約
メロディーから歌詞への自動生成は、指定されたメロディーに合わせて歌詞を生成するタスクです。
これは実用上非常に興味深いものであり、音楽が歌詞に追加の制約を課すため、制約のない歌詞生成よりも困難です。
ほとんどの曲は著作権で保護されているため、トレーニング データは限られており、その結果、メロディーと歌詞の間の複雑なクロスモーダル関係に適合しないモデルが生成されます。
この研究では、整列されたメロディーと歌詞のデータに対するトレーニングを行わずに高品質の歌詞を生成する方法を提案します。
具体的には、最初に曲の概要を生成し、次に完全な歌詞を生成する階層的な歌詞生成フレームワークを設計します。
このフレームワークにより、トレーニング (純粋にテキストに基づく) を推論 (メロディーに基づいたテキスト生成) から切り離して、並列データの不足を回避できます。
メロディーと歌詞の間のセグメンテーションとリズムの調整を活用して、指定されたメロディーを推論時のガイドとしてデコード制約にコンパイルします。
2 段階の階層設計により、歌詞のアウトラインを介したコンテンツ制御も可能になります。これは、共同での曲作成を民主化するために非常に望まれる機能です。
実験結果は、私たちのモデルが、強力なベースラインよりも、より主題に合っていて、歌いやすく、理解しやすく、一貫性のある高品質の歌詞を生成できることを示しています。たとえば、並列データセットでトレーニングされた SOTA モデルである SongMASS では、相対的に全体的な品質が 24% 向上しました。
人間の評価に基づいています。
○
要約(オリジナル)
Automatic melody-to-lyric generation is a task in which song lyrics are generated to go with a given melody. It is of significant practical interest and more challenging than unconstrained lyric generation as the music imposes additional constraints onto the lyrics. The training data is limited as most songs are copyrighted, resulting in models that underfit the complicated cross-modal relationship between melody and lyrics. In this work, we propose a method for generating high-quality lyrics without training on any aligned melody-lyric data. Specifically, we design a hierarchical lyric generation framework that first generates a song outline and second the complete lyrics. The framework enables disentanglement of training (based purely on text) from inference (melody-guided text generation) to circumvent the shortage of parallel data. We leverage the segmentation and rhythm alignment between melody and lyrics to compile the given melody into decoding constraints as guidance during inference. The two-step hierarchical design also enables content control via the lyric outline, a much-desired feature for democratizing collaborative song creation. Experimental results show that our model can generate high-quality lyrics that are more on-topic, singable, intelligible, and coherent than strong baselines, for example SongMASS, a SOTA model trained on a parallel dataset, with a 24% relative overall quality improvement based on human ratings. O
arxiv情報
著者 | Yufei Tian,Anjali Narayan-Chen,Shereen Oraby,Alessandra Cervone,Gunnar Sigurdsson,Chenyang Tao,Wenbo Zhao,Tagyoung Chung,Jing Huang,Nanyun Peng |
発行日 | 2023-05-30 17:20:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google