Long-form music generation with latent diffusion

要約

オーディオベースの音楽生成モデルは最近大きな進歩を遂げていますが、これまでのところ、テキスト プロンプトから一貫した音楽構造を備えたフルレングスの音楽トラックを生成することはできていません。
私たちは、長い時間的コンテキストで生成モデルをトレーニングすることにより、最大 4 分 45 秒の長い形式の音楽を生成できることを示します。
私たちのモデルは、高度にダウンサンプリングされた連続潜在表現 (潜在レート 21.5Hz) で動作する拡散トランスで構成されています。
オーディオ品質と即時調整に関する指標に従って最先端の世代を取得し、主観的なテストにより、一貫した構造を持つフルレングスの音楽を生成することが明らかになりました。

要約(オリジナル)

Audio-based generative models for music have seen great strides recently, but so far have not managed to produce full-length music tracks with coherent musical structure from text prompts. We show that by training a generative model on long temporal contexts it is possible to produce long-form music of up to 4m45s. Our model consists of a diffusion-transformer operating on a highly downsampled continuous latent representation (latent rate of 21.5Hz). It obtains state-of-the-art generations according to metrics on audio quality and prompt alignment, and subjective tests reveal that it produces full-length music with coherent structure.

arxiv情報

著者 Zach Evans,Julian D. Parker,CJ Carr,Zack Zukowski,Josiah Taylor,Jordi Pons
発行日 2024-07-29 14:52:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク