要約
連続条件付き生成モデリング(CCGM)は、回帰ラベルとして知られるスカラー連続変数を条件として、高次元データ(典型的には画像)の分布を推定することを目的としている。連続条件付き生成逆説的ネットワーク(CcGAN)は、当初このタスクのために設計されたが、その逆説的学習メカニズムは、極端に疎なデータや不均衡なデータに脆弱なままであり、その結果、最適な結果が得られない。生成される画像の品質を向上させるために、CcGANを、安定した学習プロセスと、より現実的な画像を生成する能力で有名な条件拡散モデル(CDM)に置き換えることが有望な選択肢である。しかし、既存のCDMをCCGMタスクに適用すると、不十分なU-Netアーキテクチャや、回帰ラベルを扱うためのモデルフィッティングメカニズムの欠陥など、いくつかの制限のために課題に直面する。本論文では、CCGMタスクのために特別に設計された最初のCDMである連続条件拡散モデル(CCDM)を紹介する。CCDMは、特別に設計された条件付き拡散過程、カスタムメイドの条件付け機構を持つ修正されたノイズ除去U-Net、モデルフィッティングのための新しいハードビシナルロス、効率的な条件付きサンプリング手順を導入することで、既存のCDMの限界に対処する。64×64から192×192までの様々な解像度の4つのデータセットを用いた包括的な実験により、提案するCCDMが最新のCCGMモデルよりも優れていることを実証し、CCGMにおける新たなベンチマークを確立する。広範なアブレーション研究により、提案するCCDMのモデルデザインと実装構成が検証された。我々のコードはhttps://github.com/UBCDingXin/CCDM。
要約(オリジナル)
Continuous Conditional Generative Modeling (CCGM) aims to estimate the distribution of high-dimensional data, typically images, conditioned on scalar continuous variables known as regression labels. While Continuous conditional Generative Adversarial Networks (CcGANs) were initially designed for this task, their adversarial training mechanism remains vulnerable to extremely sparse or imbalanced data, resulting in suboptimal outcomes. To enhance the quality of generated images, a promising alternative is to replace CcGANs with Conditional Diffusion Models (CDMs), renowned for their stable training process and ability to produce more realistic images. However, existing CDMs encounter challenges when applied to CCGM tasks due to several limitations such as inadequate U-Net architectures and deficient model fitting mechanisms for handling regression labels. In this paper, we introduce Continuous Conditional Diffusion Models (CCDMs), the first CDM designed specifically for the CCGM task. CCDMs address the limitations of existing CDMs by introducing specially designed conditional diffusion processes, a modified denoising U-Net with a custom-made conditioning mechanism, a novel hard vicinal loss for model fitting, and an efficient conditional sampling procedure. With comprehensive experiments on four datasets with varying resolutions ranging from 64×64 to 192×192, we demonstrate the superiority of the proposed CCDM over state-of-the-art CCGM models, establishing new benchmarks in CCGM. Extensive ablation studies validate the model design and implementation configuration of the proposed CCDM. Our code is publicly available at https://github.com/UBCDingXin/CCDM.
arxiv情報
著者 | Xin Ding,Yongwei Wang,Kao Zhang,Z. Jane Wang |
発行日 | 2024-05-06 15:10:19+00:00 |
arxivサイト | arxiv_id(pdf) |