要約
拡散に基づくモデルは、素晴らしい生成能力を発揮する。しかし、膨大な数のパラメータを持つため、モデルサイズが大きくなり、リソースに制約のあるデバイスでの展開には不向きである。ブロック単位の生成は、画像全体を一度に生成するのではなく、一度に1つのブロックを生成できるため、コンパクトなサイズの(パラメータ効率の良い)深層生成モデルを設計するための有望な選択肢となり得る。しかし、ブロック単位の生成は、生成されたブロック間のコヒーレンスを確保することが自明でない場合があるため、かなり困難でもある。このため、我々は検索補強型生成(RAG)アプローチを設計し、RAGモジュールによって検索された画像の対応するブロックを利用して、ブロック単位のノイズ除去拡散モデルの学習と生成段階を条件付ける。我々のコンディショニングスキームは、トレーニング中、ひいては生成中、異なるブロック間の一貫性を保証する。基本モデルとして潜在拡散モデル(LDM)を用いた我々のアプローチを紹介するが、他の種類のノイズ除去拡散モデルにも利用可能である。コンパクトなモデルサイズと優れた生成品質における本アプローチの有効性を実証するための実験を報告することで、提案するアプローチによるコヒーレンス問題の解決を検証する。
要約(オリジナル)
Diffusion-based models demonstrate impressive generation capabilities. However, they also have a massive number of parameters, resulting in enormous model sizes, thus making them unsuitable for deployment on resource-constraint devices. Block-wise generation can be a promising alternative for designing compact-sized (parameter-efficient) deep generative models since the model can generate one block at a time instead of generating the whole image at once. However, block-wise generation is also considerably challenging because ensuring coherence across generated blocks can be non-trivial. To this end, we design a retrieval-augmented generation (RAG) approach and leverage the corresponding blocks of the images retrieved by the RAG module to condition the training and generation stages of a block-wise denoising diffusion model. Our conditioning schemes ensure coherence across the different blocks during training and, consequently, during generation. While we showcase our approach using the latent diffusion model (LDM) as the base model, it can be used with other variants of denoising diffusion models. We validate the solution of the coherence problem through the proposed approach by reporting substantive experiments to demonstrate our approach’s effectiveness in compact model size and excellent generation quality.
arxiv情報
著者 | Avideep Mukherjee,Soumya Banerjee,Piyush Rai,Vinay P. Namboodiri |
発行日 | 2024-09-02 20:33:49+00:00 |
arxivサイト | arxiv_id(pdf) |