StemGen: A music generation model that listens

要約

深層学習技術を使用した音楽オーディオのエンドツーエンド生成は、最近爆発的に増加しています。
ただし、ほとんどのモデルは、抽象的な条件付け情報に応じて完全に混合された音楽を生成することに重点を置いています。
この研究では、音楽コンテキストを聞いて応答できる音楽生成モデルを作成するための代替パラダイムを提示します。
非自己回帰のトランスフォーマー ベースのモデル アーキテクチャを使用してそのようなモデルを構築する方法を説明し、多くの新しいアーキテクチャとサンプリングの改善を示します。
オープンソースと独自のデータセットの両方で、説明されたアーキテクチャをトレーニングします。
標準的な品質指標と音楽情報検索記述子に基づく新しいアプローチを使用して、生成されたモデルを評価します。
結果として得られるモデルは、最先端のテキスト条件付きモデルのオーディオ品質に達するとともに、そのコンテキストとの強力な音楽的一貫性を示します。

要約(オリジナル)

End-to-end generation of musical audio using deep learning techniques has seen an explosion of activity recently. However, most models concentrate on generating fully mixed music in response to abstract conditioning information. In this work, we present an alternative paradigm for producing music generation models that can listen and respond to musical context. We describe how such a model can be constructed using a non-autoregressive, transformer-based model architecture and present a number of novel architectural and sampling improvements. We train the described architecture on both an open-source and a proprietary dataset. We evaluate the produced models using standard quality metrics and a new approach based on music information retrieval descriptors. The resulting model reaches the audio quality of state-of-the-art text-conditioned models, as well as exhibiting strong musical coherence with its context.

arxiv情報

著者 Julian D. Parker,Janne Spijkervet,Katerina Kosta,Furkan Yesiler,Boris Kuznetsov,Ju-Chiang Wang,Matt Avent,Jitong Chen,Duc Le
発行日 2024-01-16 09:15:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク