ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models

要約

近年、拡散モデルへの関心の高まりにより、画像と音声の生成が大幅に進歩しました。
それにもかかわらず、無制限のテキストプロンプトから音楽波形を直接合成することは、依然として比較的研究が進んでいない領域です。
この不足に応えて、この論文では、拡散モデルの利用に裏打ちされた、テキストから波形への音楽生成モデルの形での先駆的な貢献を紹介します。
私たちの方法論は、拡散モデルのフレームワーク内で波形生成プロセスをガイドするための条件要素として、自由形式のテキスト プロンプトを革新的に組み込むことにかかっています。
テキストと音楽の並列データが限られているという課題に対処するため、私たちは Web リソースを利用してデータセットの作成に取り組みます。これは弱い監視技術によって容易に行えるタスクです。
さらに、テキスト条件付けのための 2 つの異なるプロンプト形式、つまり音楽タグと制約のないテキスト記述の有効性を対比するために、厳密な経験的調査が行われます。
この比較分析の結果は、テキストと音楽の関連性を高めるという点で、私たちが提案したモデルの優れたパフォーマンスを裏付けています。
最後に、私たちの作業は、テキストから音楽への生成におけるモデルの優れた機能を実証することで最高潮に達します。
さらに、波形領域で生成された音楽が、多様性、品質、テキスト音楽の関連性の点で以前の作品よりも優れていることを示します。

要約(オリジナル)

In recent years, the burgeoning interest in diffusion models has led to significant advances in image and speech generation. Nevertheless, the direct synthesis of music waveforms from unrestricted textual prompts remains a relatively underexplored domain. In response to this lacuna, this paper introduces a pioneering contribution in the form of a text-to-waveform music generation model, underpinned by the utilization of diffusion models. Our methodology hinges on the innovative incorporation of free-form textual prompts as conditional factors to guide the waveform generation process within the diffusion model framework. Addressing the challenge of limited text-music parallel data, we undertake the creation of a dataset by harnessing web resources, a task facilitated by weak supervision techniques. Furthermore, a rigorous empirical inquiry is undertaken to contrast the efficacy of two distinct prompt formats for text conditioning, namely, music tags and unconstrained textual descriptions. The outcomes of this comparative analysis affirm the superior performance of our proposed model in terms of enhancing text-music relevance. Finally, our work culminates in a demonstrative exhibition of the excellent capabilities of our model in text-to-music generation. We further demonstrate that our generated music in the waveform domain outperforms previous works by a large margin in terms of diversity, quality, and text-music relevance.

arxiv情報

著者 Pengfei Zhu,Chao Pang,Yekun Chai,Lei Li,Shuohuan Wang,Yu Sun,Hao Tian,Hua Wu
発行日 2023-09-21 09:30:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS パーマリンク