Progressive distillation diffusion for raw music generation

要約

このペーパーは、生のオーディオ ファイルを生成するタスクに新しい深層学習アプローチを適用することを目的としています。
これは、最近のタイプの深層生成モデルである拡散モデルに基づいています。
この新しいタイプの方法は、最近、画像生成に関して優れた結果を示しています。
コンピューター ビジョン コミュニティは、これらのモデルに大きな焦点を当ててきました。
一方、波形ドメインでの音楽生成など、他のタイプのアプリケーションについてはほとんど提供されていません。
この論文では、音楽に適用される無条件生成モデル、つまり 1D U-Net を使用した漸進的蒸留拡散が実装されています。
次に、拡散のさまざまなパラメータとその完全な結果における値の比較が表示されます。
この作業を通じて実装されたメソッドの大きな利点の 1 つは、モデルが 1 チャネル 128 x 384 から 3 チャネル 128 x 128 メル スペクトログラムへの変換とループ生成を使用して、進行するオーディオ処理と生成に対処できるという事実です。
経験的な比較は、自己収集されたさまざまなデータセットにわたって実現されます。

要約(オリジナル)

This paper aims to apply a new deep learning approach to the task of generating raw audio files. It is based on diffusion models, a recent type of deep generative model. This new type of method has recently shown outstanding results with image generation. A lot of focus has been given to those models by the computer vision community. On the other hand, really few have been given for other types of applications such as music generation in waveform domain. In this paper the model for unconditional generating applied to music is implemented: Progressive distillation diffusion with 1D U-Net. Then, a comparison of different parameters of diffusion and their value in a full result is presented. One big advantage of the methods implemented through this work is the fact that the model is able to deal with progressing audio processing and generating , using transformation from 1-channel 128 x 384 to 3-channel 128 x 128 mel-spectrograms and looped generation. The empirical comparisons are realized across different self-collected datasets.

arxiv情報

著者 Svetlana Pavlova
発行日 2023-07-20 16:25:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク