Discrete Diffusion Probabilistic Models for Symbolic Music Generation

要約

ノイズ除去拡散確率モデル (DDPM) は、離散領域と連続領域の両方で高品質のサンプルを生成する点で大きな進歩を遂げました。
ただし、ディスクリート DDPM (D3PM) はまだシンボリック ミュージックの領域には適用されていません。
この作品では、D3PM を使用したポリフォニック シンボリック ミュージックの直接生成を紹介します。
私たちのモデルは、現在の定量的評価基準に従って最先端のサンプル品質を示し、ノートレベルでの柔軟なインフィルを可能にします。
さらに、私たちのモデルがポストホック分類子ガイダンスにアクセス可能であり、可能なアプリケーションの範囲が広がることを示します。
しかし、私たちはまた、統計的指標による音楽サンプルの品質の定量的評価について批判的な見解を投げかけ、完全に偽の非音楽サンプルと私たちの指標を混同する可能性がある単純なアルゴリズムを提示します。

要約(オリジナル)

Denoising Diffusion Probabilistic Models (DDPMs) have made great strides in generating high-quality samples in both discrete and continuous domains. However, Discrete DDPMs (D3PMs) have yet to be applied to the domain of Symbolic Music. This work presents the direct generation of Polyphonic Symbolic Music using D3PMs. Our model exhibits state-of-the-art sample quality, according to current quantitative evaluation metrics, and allows for flexible infilling at the note level. We further show, that our models are accessible to post-hoc classifier guidance, widening the scope of possible applications. However, we also cast a critical view on quantitative evaluation of music sample quality via statistical metrics, and present a simple algorithm that can confound our metrics with completely spurious, non-musical samples.

arxiv情報

著者 Matthias Plasser,Silvan Peter,Gerhard Widmer
発行日 2023-05-16 14:43:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク