DIFFNAT: Improving Diffusion Image Quality Using Natural Image Statistics

要約

拡散モデルは、自然な画像の編集と作成という点で生成 AI を大幅に進歩させました。
ただし、生成される画像の品質を効率的に向上させることが依然として最も重要な関心事です。
これに関連して、一般的な「自然さ」を維持する損失関数、つまり尖度濃度 (KC) 損失を提案します。これは、画質を向上させるために標準的な拡散モデル パイプラインに簡単に適用できます。
私たちの動機は、自然画像の投影された尖度濃度特性に由来しています。これは、自然画像は、画像のさまざまなバンドパス バージョンにわたってほぼ一定の尖度値を持っていると述べています。
生成された画像の「自然さ」を維持するために、画像のバンドパス バージョン (離散ウェーブレット変換 (DWT) など) にわたる尖度の最高値と最低値の間のギャップを強制的に削減します。
私たちのアプローチでは、画質を向上させるために分類器や分類器を使用しないガイダンスなどの追加のガイダンスを必要としないことに注意してください。
提案されたアプローチを 3 つの多様なタスク、つまり (1) テキスト ガイダンスを使用した個別の数ショット微調整、(2) 無条件の画像生成、および (3) 画像の超解像度に対して検証します。
提案された KC 損失を統合すると、FID、MUSIQ スコア、ユーザー評価の両方の観点から、これらすべてのタスクの知覚品質が向上しました。

要約(オリジナル)

Diffusion models have advanced generative AI significantly in terms of editing and creating naturalistic images. However, efficiently improving generated image quality is still of paramount interest. In this context, we propose a generic ‘naturalness’ preserving loss function, viz., kurtosis concentration (KC) loss, which can be readily applied to any standard diffusion model pipeline to elevate the image quality. Our motivation stems from the projected kurtosis concentration property of natural images, which states that natural images have nearly constant kurtosis values across different band-pass versions of the image. To retain the ‘naturalness’ of the generated images, we enforce reducing the gap between the highest and lowest kurtosis values across the band-pass versions (e.g., Discrete Wavelet Transform (DWT)) of images. Note that our approach does not require any additional guidance like classifier or classifier-free guidance to improve the image quality. We validate the proposed approach for three diverse tasks, viz., (1) personalized few-shot finetuning using text guidance, (2) unconditional image generation, and (3) image super-resolution. Integrating the proposed KC loss has improved the perceptual quality across all these tasks in terms of both FID, MUSIQ score, and user evaluation.

arxiv情報

著者 Aniket Roy,Maiterya Suin,Anshul Shah,Ketul Shah,Jiang Liu,Rama Chellappa
発行日 2023-11-16 10:28:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク