要約
拡散生成モデルのノイズを除去するためのノイズスケジューリング戦略の効果を経験的に研究します。
3 つの発見があります: (1) ノイズ スケジューリングはパフォーマンスにとって重要であり、最適なものはタスク (画像サイズなど) に依存します。(2) 画像サイズを大きくすると、最適なノイズ スケジューリングはよりノイズの多いものにシフトします。
(ピクセルの冗長性が増加するため)、(3) ノイズ スケジュール関数を固定したまま (logSNR を $\log b$ シフトするのと同等)、単純に入力データを $b$ の係数でスケーリングすることは、全体にわたって優れた戦略です。
画像サイズ。
この単純なレシピを、最近提案された Recurrent Interface Network (RIN) と組み合わせると、ImageNet 上の高解像度画像用の最先端のピクセルベースの拡散モデルが生成され、多様な画像を単一段階でエンドツーエンドで生成できます。
1024$\times$1024 解像度の高忠実度画像 (アップサンプリング/カスケードなし)。
要約(オリジナル)
We empirically study the effect of noise scheduling strategies for denoising diffusion generative models. There are three findings: (1) the noise scheduling is crucial for the performance, and the optimal one depends on the task (e.g., image sizes), (2) when increasing the image size, the optimal noise scheduling shifts towards a noisier one (due to increased redundancy in pixels), and (3) simply scaling the input data by a factor of $b$ while keeping the noise schedule function fixed (equivalent to shifting the logSNR by $\log b$) is a good strategy across image sizes. This simple recipe, when combined with recently proposed Recurrent Interface Network (RIN), yields state-of-the-art pixel-based diffusion models for high-resolution images on ImageNet, enabling single-stage, end-to-end generation of diverse and high-fidelity images at 1024$\times$1024 resolution (without upsampling/cascades).
arxiv情報
著者 | Ting Chen |
発行日 | 2023-02-16 18:24:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google