要約
ノイズ除去拡散確率モデル (DDPM) は、大量のデータでトレーニングすると、顕著な多様性を持つ高品質の画像を合成できることが証明されています。
典型的な拡散モデルや、テキストから画像への生成モデルなどの最新の大規模条件付き生成モデルは、非常に限られたデータで微調整すると過剰学習に対して脆弱になります。
既存の研究では、いくつかの画像を含む参照セットを使用して、主題主導の生成を検討してきました。
ただし、多様性を維持しながらターゲット ドメインの共通の特徴を学習することを目的とした、DDPM ベースのドメイン駆動型生成を検討した先行研究はほとんどありません。
この論文では、大規模なソース データセットで事前トレーニングされた DDPM を、限られたデータを使用してターゲット ドメインに適応させるための新しい DomainStudio アプローチを提案します。
ソース ドメインによって提供される被験者の多様性を維持し、ターゲット ドメインで高品質で多様な適応サンプルを取得できるように設計されています。
かなりの世代多様性を達成するために、適応されたサンプル間の相対的な距離を維持することを提案します。
さらに、生成品質を向上させるために、高周波の詳細の学習をさらに強化します。
私たちのアプローチは、無条件拡散モデルと条件付き拡散モデルの両方と互換性があります。
この研究は、拡散モデルによる無条件の少数ショット画像生成を実現する最初の試みであり、現在の最先端の GAN ベースのアプローチよりも優れた品質とより大きな多様性を実現します。
さらに、この取り組みにより、条件付き生成のオーバーフィッティングも大幅に軽減され、高品質のドメイン駆動型生成が実現され、最新の大規模なテキストから画像へのモデルの適用可能なシナリオがさらに拡張されます。
要約(オリジナル)
Denoising diffusion probabilistic models (DDPMs) have been proven capable of synthesizing high-quality images with remarkable diversity when trained on large amounts of data. Typical diffusion models and modern large-scale conditional generative models like text-to-image generative models are vulnerable to overfitting when fine-tuned on extremely limited data. Existing works have explored subject-driven generation using a reference set containing a few images. However, few prior works explore DDPM-based domain-driven generation, which aims to learn the common features of target domains while maintaining diversity. This paper proposes a novel DomainStudio approach to adapt DDPMs pre-trained on large-scale source datasets to target domains using limited data. It is designed to keep the diversity of subjects provided by source domains and get high-quality and diverse adapted samples in target domains. We propose to keep the relative distances between adapted samples to achieve considerable generation diversity. In addition, we further enhance the learning of high-frequency details for better generation quality. Our approach is compatible with both unconditional and conditional diffusion models. This work makes the first attempt to realize unconditional few-shot image generation with diffusion models, achieving better quality and greater diversity than current state-of-the-art GAN-based approaches. Moreover, this work also significantly relieves overfitting for conditional generation and realizes high-quality domain-driven generation, further expanding the applicable scenarios of modern large-scale text-to-image models.
arxiv情報
著者 | Jingyuan Zhu,Huimin Ma,Jiansheng Chen,Jian Yuan |
発行日 | 2024-01-16 08:57:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google