要約
生成分野の現在の傾向は、一般化されたドメイン表現のためのより大規模なモデルとより多くのトレーニング データにスケールアップしていますが、この研究では、追加のトレーニングなしで目に見えないドメイン イメージを合成することで、逆の方向に進みます。
これは、単一ドメイン データセット上で事前トレーニングされ凍結されたノイズ除去拡散確率モデル (DDPM) を使用した潜在サンプリングと幾何最適化によって行われます。
私たちの重要な観察は、単一ドメイン画像のみで事前トレーニングされた DDPM は、双方向の決定論的拡散とノイズ除去の軌跡に続く反転潜在エンコーディングから任意の画像を再構成するのに十分な表現能力をすでに備えているということです。
これは、ノイズ除去チェーンに沿った潜在空間内の目に見えない画像ドメインからの分布外 (OOD) サンプルの統計的および幾何学的挙動を調査する動機になります。
特に、反転 OOD サンプルは中間潜在空間内の元のドメイン内 (ID) サンプルから区別可能なガウス分布も確立することを理論的および経験的に示しており、これによりサンプルから直接サンプリングできるようになります。
目に見えない部分空間の幾何学的なドメイン固有およびモデル依存の情報 (サンプルごとの距離や角度など) を使用して、推定された事前ガウス分布からサンプリングされた OOD 潜在エンコーディングをさらに最適化します。
私たちは、さまざまなデータセット (AFHQ、CelebA-HQ、LSUN-Church、および LSUN-Bedroom) に対して事前トレーニング済みの拡散モデル (DDPM、iDDPM) を使用して広範な分析と実験を実施し、探索および再考するためのこの新しい視点の有効性を証明しています。
拡散モデルのデータ合成汎化能力。
要約(オリジナル)
While the current trend in the generative field is scaling up towards larger models and more training data for generalized domain representations, we go the opposite direction in this work by synthesizing unseen domain images without additional training. We do so via latent sampling and geometric optimization using pre-trained and frozen Denoising Diffusion Probabilistic Models (DDPMs) on single-domain datasets. Our key observation is that DDPMs pre-trained even just on single-domain images are already equipped with sufficient representation abilities to reconstruct arbitrary images from the inverted latent encoding following bi-directional deterministic diffusion and denoising trajectories. This motivates us to investigate the statistical and geometric behaviors of the Out-Of-Distribution (OOD) samples from unseen image domains in the latent spaces along the denoising chain. Notably, we theoretically and empirically show that the inverted OOD samples also establish Gaussians that are distinguishable from the original In-Domain (ID) samples in the intermediate latent spaces, which allows us to sample from them directly. Geometrical domain-specific and model-dependent information of the unseen subspace (e.g., sample-wise distance and angles) is used to further optimize the sampled OOD latent encodings from the estimated Gaussian prior. We conduct extensive analysis and experiments using pre-trained diffusion models (DDPM, iDDPM) on different datasets (AFHQ, CelebA-HQ, LSUN-Church, and LSUN-Bedroom), proving the effectiveness of this novel perspective to explore and re-think the diffusion models’ data synthesis generalization ability.
arxiv情報
著者 | Ye Zhu,Yu Wu,Zhiwei Deng,Olga Russakovsky,Yan Yan |
発行日 | 2023-10-13 16:07:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google