要約
拡散モデルは、複雑なデータ分布をモデル化する優れた能力を示しており、安定したトレーニング、トレーニング分布のモードのより優れたカバレッジ、追加のトレーニングなしで逆問題を解決できる機能など、GAN に勝るいくつかの重要な利点があります。
ただし、ほとんどの拡散モデルは固定解像度の画像の分布を学習します。
我々は、任意の解像度でレンダリングできる画像ニューラルフィールド上の拡散モデルをトレーニングすることによって連続画像の分布を学習し、固定解像度モデルに対するその利点を示すことを提案します。
これを達成するための重要な課題は、フォトリアリスティックな画像の神経フィールドを表す潜在空間を取得することです。
私たちは、いくつかの最近の技術に触発された、画像のニューラル フィールドを写真のようにリアルにするための重要な変更を加えた、シンプルで効果的な方法を提案します。
私たちの方法は、既存の潜在拡散オートエンコーダーを画像神経野オートエンコーダーに変換するために使用できます。
画像神経場拡散モデルは、混合解像度の画像データセットを使用してトレーニングでき、固定解像度の拡散モデルに続いて超解像度モデルよりも優れたパフォーマンスを発揮し、異なるスケールで適用された条件による逆問題を効率的に解決できることを示します。
要約(オリジナル)
Diffusion models have shown an impressive ability to model complex data distributions, with several key advantages over GANs, such as stable training, better coverage of the training distribution’s modes, and the ability to solve inverse problems without extra training. However, most diffusion models learn the distribution of fixed-resolution images. We propose to learn the distribution of continuous images by training diffusion models on image neural fields, which can be rendered at any resolution, and show its advantages over fixed-resolution models. To achieve this, a key challenge is to obtain a latent space that represents photorealistic image neural fields. We propose a simple and effective method, inspired by several recent techniques but with key changes to make the image neural fields photorealistic. Our method can be used to convert existing latent diffusion autoencoders into image neural field autoencoders. We show that image neural field diffusion models can be trained using mixed-resolution image datasets, outperform fixed-resolution diffusion models followed by super-resolution models, and can solve inverse problems with conditions applied at different scales efficiently.
arxiv情報
著者 | Yinbo Chen,Oliver Wang,Richard Zhang,Eli Shechtman,Xiaolong Wang,Michael Gharbi |
発行日 | 2024-06-11 17:24:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google