Blue noise for diffusion models

要約

既存の拡散モデルのほとんどは、すべてのタイム ステップにわたるトレーニングとサンプリングにガウス ノイズを使用します。これは、ノイズ除去ネットワークによって再構築された周波数コンテンツを最適に考慮していない可能性があります。
コンピューター グラフィックスにおける相関ノイズは多様に応用されているにもかかわらず、トレーニング プロセスを改善する可能性は十分に検討されていません。
この論文では、画像内および画像間の相関ノイズを考慮した、新規で一般的なクラスの拡散モデルを紹介します。
より具体的には、相関ノイズをトレーニング プロセスに組み込むための時変ノイズ モデルと、相関ノイズ マスクを高速に生成する方法を提案します。
私たちのモデルは決定論的拡散モデルに基づいて構築されており、ブルー ノイズを利用することで、ガウス ホワイト (ランダム) ノイズのみを使用する場合と比較して、生成品質の向上に役立ちます。
さらに、私たちのフレームワークでは、単一のミニバッチ内の画像間で相関関係を導入して、グラジエント フローを改善することができます。
私たちは、独自の手法を使用してさまざまなデータセットに対して定性的評価と定量的評価の両方を実行し、FID メトリクスの観点から既存の決定論的拡散モデルを超えるさまざまなタスクの改善を実現します。

要約(オリジナル)

Most of the existing diffusion models use Gaussian noise for training and sampling across all time steps, which may not optimally account for the frequency contents reconstructed by the denoising network. Despite the diverse applications of correlated noise in computer graphics, its potential for improving the training process has been underexplored. In this paper, we introduce a novel and general class of diffusion models taking correlated noise within and across images into account. More specifically, we propose a time-varying noise model to incorporate correlated noise into the training process, as well as a method for fast generation of correlated noise mask. Our model is built upon deterministic diffusion models and utilizes blue noise to help improve the generation quality compared to using Gaussian white (random) noise only. Further, our framework allows introducing correlation across images within a single mini-batch to improve gradient flow. We perform both qualitative and quantitative evaluations on a variety of datasets using our method, achieving improvements on different tasks over existing deterministic diffusion models in terms of FID metric.

arxiv情報

著者 Xingchang Huang,Corentin Salaün,Cristina Vasconcelos,Christian Theobalt,Cengiz Öztireli,Gurprit Singh
発行日 2024-05-02 13:53:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク