要約
基礎となるダイナミクスに分数拡散プロセスを利用する、初の連続時間スコアベースの生成モデルを紹介します。
拡散モデルはデータ分布の捕捉には優れていますが、収束の遅さ、不均衡なデータでのモード崩壊、多様性の欠如など、依然としてさまざまな制限があります。
これらの問題は、独立した増分によるライトテールブラウン運動 (BM) の使用に部分的に関連しています。
この論文では、BM を、相関増分とハースト指数 $H \in (0,1)$ ($H=1/2$) によって特徴付けられる非マルコフ運動の近似である部分ブラウン運動 (fBM) に置き換えます。
古典的なBMを回復します。
扱いやすい推論と学習を確実にするために、最近普及した fBM のマルコフ近似 (MA-fBM) を採用し、その逆時間モデルを導出し、生成分数拡散モデル (GFDM) を生成します。
我々は、連続再パラメータ化トリックを使用して順ダイナミクスを特徴付け、最小限の追加コストで部分的に閉じた形式で知られているスコア関数を効率的に学習するための拡張スコアマッチング損失を提案します。
fBM を介して拡散モデルを推進できるため、柔軟性と制御が可能になります。
$H \leq 1/2$ はラフパスの領域に入りますが、$H>1/2$ は拡散パスを規則化し、長期記憶とヘビーテール動作 (超拡散) を引き起こします。
マルコフ近似では、fBM を近似するために線形に結合されるマルコフ プロセスの数を変更することで、追加の制御が可能になります。
実際の画像データセットに対する評価では、FID が低いことで示されるように、GFDM がピクセル単位の多様性と画質の向上を実現し、従来の拡散モデルに代わる有望な代替手段となることが実証されました。
要約(オリジナル)
We introduce the first continuous-time score-based generative model that leverages fractional diffusion processes for its underlying dynamics. Although diffusion models have excelled at capturing data distributions, they still suffer from various limitations such as slow convergence, mode-collapse on imbalanced data, and lack of diversity. These issues are partially linked to the use of light-tailed Brownian motion (BM) with independent increments. In this paper, we replace BM with an approximation of its non-Markovian counterpart, fractional Brownian motion (fBM), characterized by correlated increments and Hurst index $H \in (0,1)$, where $H=1/2$ recovers the classical BM. To ensure tractable inference and learning, we employ a recently popularized Markov approximation of fBM (MA-fBM) and derive its reverse time model, resulting in generative fractional diffusion models (GFDMs). We characterize the forward dynamics using a continuous reparameterization trick and propose an augmented score matching loss to efficiently learn the score-function, which is partly known in closed form, at minimal added cost. The ability to drive our diffusion model via fBM provides flexibility and control. $H \leq 1/2$ enters the regime of rough paths whereas $H>1/2$ regularizes diffusion paths and invokes long-term memory as well as a heavy-tailed behaviour (super-diffusion). The Markov approximation allows added control by varying the number of Markov processes linearly combined to approximate fBM. Our evaluations on real image datasets demonstrate that GFDM achieves greater pixel-wise diversity and enhanced image quality, as indicated by a lower FID, offering a promising alternative to traditional diffusion models.
arxiv情報
著者 | Gabriel Nobis,Maximilian Springenberg,Marco Aversa,Michael Detzel,Rembert Daems,Roderick Murray-Smith,Shinichi Nakajima,Sebastian Lapuschkin,Stefano Ermon,Tolga Birdal,Manfred Opper,Christoph Knochenhauer,Luis Oala,Wojciech Samek |
発行日 | 2024-06-24 17:00:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google