要約
スコアベースの拡散モデル (SBDM) は、画像生成のための最先端のアプローチとして最近登場しました。
既存の SBDM は通常、画像が有限サイズのテンソルと見なされる有限次元設定で定式化されます。
この論文では、無限次元の設定で SBDM を開発します。つまり、トレーニング データを長方形領域でサポートされる関数としてモデル化します。
より高い解像度で画像を生成するという探求に加えて、私たちの主な動機は、複数の解像度レベルで一貫して離散化できるように適切に設定された無限次元の学習問題を作成することです。
これにより、さまざまな解像度レベルで一般化する拡散モデルを取得し、トレーニング プロセスの効率を向上させたいと考えています。
無限次元設定で現在の SBDM アプローチの 2 つの欠点を克服する方法を示します。
まず、追跡クラス演算子の概念を使用して、潜在分布が無限次元設定で明確に定義されるようにフォワード プロセスを変更します。
次に、スコア関数をオペレーター ネットワーク (この場合はフーリエ ニューラル オペレーター (FNO)) で近似することが、マルチレベル トレーニングに有益であることを示します。
無限次元設定で順方向および逆方向のプロセスを導出した後、それらの適切な設定を示し、適切な離散化を導出し、潜在分布の役割を調査します。
MNIST と材料構造の 2 つのデータセットに関する最初の有望な数値結果を提供します。
特に、マルチレベルのトレーニングがこのフレームワーク内で実行可能であることを示します。
要約(オリジナル)
Score-based diffusion models (SBDM) have recently emerged as state-of-the-art approaches for image generation. Existing SBDMs are typically formulated in a finite-dimensional setting, where images are considered as tensors of a finite size. This papers develops SBDMs in the infinite-dimensional setting, that is, we model the training data as functions supported on a rectangular domain. Besides the quest for generating images at ever higher resolution our primary motivation is to create a well-posed infinite-dimensional learning problem so that we can discretize it consistently on multiple resolution levels. We thereby hope to obtain diffusion models that generalize across different resolution levels and improve the efficiency of the training process. We demonstrate how to overcome two shortcomings of current SBDM approaches in the infinite-dimensional setting. First, we modify the forward process to ensure that the latent distribution is well-defined in the infinite-dimensional setting using the notion of trace class operators. Second, we illustrate that approximating the score function with an operator network, in our case Fourier neural operators (FNOs), is beneficial for multilevel training. After deriving the forward and reverse process in the infinite-dimensional setting, we show their well-posedness, derive adequate discretizations, and investigate the role of the latent distributions. We provide first promising numerical results on two datasets, MNIST and material structures. In particular, we show that multilevel training is feasible within this framework.
arxiv情報
著者 | Paul Hagemann,Lars Ruthotto,Gabriele Steidl,Nicole Tianjiao Yang |
発行日 | 2023-03-08 18:10:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google