Frequency-Time Diffusion with Neural Cellular Automata

要約

大きな成功を収めたにもかかわらず、UNet バックボーンを備えた大規模なノイズ除去拡散モデル (DDM) は、特に限られたハードウェア上やギガピクセル画像の処理において、実際的な課題を引き起こします。
これらの制限に対処するために、Diff-NCA と FourierDiff-NCA という 2 つのニューラル セルラー オートマトン (NCA) ベースの DDM を導入します。
NCA のローカル通信機能を利用して、Diff-NCA は NCA ベースの DDM のパラメータ数を大幅に削減します。
フーリエベースの拡散を統合すると、拡散プロセスの初期段階でグローバルな通信が可能になります。
この機能は、CelebA データセットなどの重要なグローバル特徴を含む複雑な画像を合成する場合に特に役立ちます。
331k パラメーターの Diff-NCA でも 512×512 の病理スライスを生成できる一方、FourierDiff-NCA (1.1m パラメーター) は 4 倍大きい UNet (3.94m パラメーター) のスコアと比較して 3 分の 1 低い 43.86 の FID スコアに達することを実証します。
128.2の。
さらに、FourierDiff-NCA は、明示的なトレーニングなしで、超解像度、分布外画像合成、修復などのさまざまなタスクを実行できます。

要約(オリジナル)

Despite considerable success, large Denoising Diffusion Models (DDMs) with UNet backbone pose practical challenges, particularly on limited hardware and in processing gigapixel images. To address these limitations, we introduce two Neural Cellular Automata (NCA)-based DDMs: Diff-NCA and FourierDiff-NCA. Capitalizing on the local communication capabilities of NCA, Diff-NCA significantly reduces the parameter counts of NCA-based DDMs. Integrating Fourier-based diffusion enables global communication early in the diffusion process. This feature is particularly valuable in synthesizing complex images with important global features, such as the CelebA dataset. We demonstrate that even a 331k parameter Diff-NCA can generate 512×512 pathology slices, while FourierDiff-NCA (1.1m parameters) reaches a three times lower FID score of 43.86, compared to the four times bigger UNet (3.94m parameters) with a score of 128.2. Additionally, FourierDiff-NCA can perform diverse tasks such as super-resolution, out-of-distribution image synthesis, and inpainting without explicit training.

arxiv情報

著者 John Kalkhof,Arlene Kühn,Yannik Frisch,Anirban Mukhopadhyay
発行日 2024-05-13 12:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク