要約
この論文では、周波数空間から画像モデリングを検討し、離散コサイン変換 (DCT) 空間で画像を効率的にモデル化するエンドツーエンドの拡散生成パラダイムである DCTdiff を紹介します。
DCTdiff の設計空間を調査し、主要な設計要素を明らかにします。
さまざまなフレームワーク (UViT、DiT)、生成タスク、およびさまざまな拡散サンプラーに関する実験により、DCTdiff が生成品質とトレーニング効率に関してピクセルベースの拡散モデルよりも優れていることが実証されました。
注目すべきことに、DCTdiff は潜在拡散パラダイムを使用せずに、高解像度の生成までシームレスにスケールアップできます。
最後に、DCT 画像モデリングのいくつかの興味深い特性を説明します。
たとえば、「画像拡散がスペクトル自己回帰としてみなされる」理由の理論的証明を提供し、拡散モデルと自己回帰モデルの間のギャップを橋渡しします。
DCTdiff の有効性と導入されたプロパティは、周波数空間における画像モデリングの有望な方向性を示唆しています。
コードは \url{https://github.com/forever208/DCTdiff} にあります。
要約(オリジナル)
This paper explores image modeling from the frequency space and introduces DCTdiff, an end-to-end diffusion generative paradigm that efficiently models images in the discrete cosine transform (DCT) space. We investigate the design space of DCTdiff and reveal the key design factors. Experiments on different frameworks (UViT, DiT), generation tasks, and various diffusion samplers demonstrate that DCTdiff outperforms pixel-based diffusion models regarding generative quality and training efficiency. Remarkably, DCTdiff can seamlessly scale up to high-resolution generation without using the latent diffusion paradigm. Finally, we illustrate several intriguing properties of DCT image modeling. For example, we provide a theoretical proof of why `image diffusion can be seen as spectral autoregression’, bridging the gap between diffusion and autoregressive models. The effectiveness of DCTdiff and the introduced properties suggest a promising direction for image modeling in the frequency space. The code is at \url{https://github.com/forever208/DCTdiff}.
arxiv情報
著者 | Mang Ning,Mingxiao Li,Jianlin Su,Haozhe Jia,Lanmiao Liu,Martin Beneš,Albert Ali Salah,Itir Onal Ertugrul |
発行日 | 2024-12-19 16:44:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google