Few-shot Image Generation with Diffusion Models

要約

ノイズ除去拡散確率モデル (DDPM) は、大量のデータでトレーニングしたときに、驚くべき多様性を備えた高品質の画像を合成できることが証明されています。
ただし、私たちの知る限り、数ショットの画像生成タスクは、DDPM ベースのアプローチでまだ研究されていません。
最新のアプローチは、主に Generative Adversarial Networks (GAN) に基づいて構築されており、いくつかの利用可能なサンプルを使用して、大規模なソース ドメインで事前トレーニングされたモデルをターゲット ドメインに適応させます。
このホワイト ペーパーでは、トレーニング データが不足するにつれて、DDPM がオーバーフィットし、深刻な多様性の低下が発生する時期を調査する最初の試みを行います。
次に、大規模なソース ドメインで事前トレーニングされた DDPM を、限られたターゲット データで直接微調整します。
私たちの結果は、事前にトレーニングされたモデルからの知識を利用することで、最初からトレーニングする場合と比較して、収束を加速し、世代の品質と多様性を改善できることを示しています。
ただし、微調整されたモデルは依然としていくつかの多様な機能を保持できず、限られた多様性しか実現できません。
したがって、ドメイン適応中に生成されたサンプル間の相対距離を維持するために、ペアワイズ類似性損失に基づくペアワイズ DDPM 適応 (DDPM-PA) アプローチを提案します。
DDPM-PA は世代の多様性をさらに改善し、現在の最先端の GAN ベースのアプローチよりも優れた結果を達成します。
一連の少数ショット画像生成タスクに対する DDPM-PA の有効性を定性的および定量的に示します。

要約(オリジナル)

Denoising diffusion probabilistic models (DDPMs) have been proven capable of synthesizing high-quality images with remarkable diversity when trained on large amounts of data. However, to our knowledge, few-shot image generation tasks have yet to be studied with DDPM-based approaches. Modern approaches are mainly built on Generative Adversarial Networks (GANs) and adapt models pre-trained on large source domains to target domains using a few available samples. In this paper, we make the first attempt to study when do DDPMs overfit and suffer severe diversity degradation as training data become scarce. Then we fine-tune DDPMs pre-trained on large source domains on limited target data directly. Our results show that utilizing knowledge from pre-trained models can accelerate convergence and improve generation quality and diversity compared with training from scratch. However, the fine-tuned models still fail to retain some diverse features and can only achieve limited diversity. Therefore, we propose a pairwise DDPM adaptation (DDPM-PA) approach based on a pairwise similarity loss to preserve the relative distances between generated samples during domain adaptation. DDPM-PA further improves generation diversity and achieves results better than current state-of-the-art GAN-based approaches. We demonstrate the effectiveness of DDPM-PA on a series of few-shot image generation tasks qualitatively and quantitatively.

arxiv情報

著者 Jingyuan Zhu,Huimin Ma,Jiansheng Chen,Jian Yuan
発行日 2022-11-11 16:47:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク