On Improved Conditioning Mechanisms and Pre-training Strategies for Diffusion Models

要約

潜在拡散モデル (LDM) の大規模トレーニングにより、前例のない品質の画像生成が可能になりました。
ただし、最高のパフォーマンスを発揮する LDM トレーニング レシピの主要なコンポーネントが研究コミュニティに提供されていないことが多く、同一の比較が妨げられ、この分野の進歩の検証が妨げられています。
この作業では、モデルのパフォーマンスとそのトレーニング効率に焦点を当てた LDM トレーニング レシピの詳細な研究を実行します。
同一の比較を確実にするために、以前に公開された 5 つのモデルを対応するレシピで再実装します。
私たちの研究を通じて、(i) セマンティック情報 (テキスト プロンプトなど) および制御メタデータ (クロップ サイズ、ランダム フリップ フラグなど) を生成モデルに条件付けるために使用されるメカニズムがモデルのパフォーマンスに及ぼす影響を調査します。
、および (ii) ~ トレーニング効率とモデルのパフォーマンスに関して、より小規模で低解像度のデータセットで学習された表現をより大きなデータセットに転送します。
次に、セマンティック コンディショニングと制御メタデータ コンディショニングを解きほぐし、ImageNet-1k データセットでのクラス条件付き生成の新しい最先端を確立する新しいコンディショニング メカニズムを提案します。FID は 256 で 7%、256 では 8% 向上しました。
512 解像度、および CC12M データセットでのテキストから画像への生成では、FID が 256 解像度で 8%、512 解像度で 23% 向上しました。

要約(オリジナル)

Large-scale training of latent diffusion models (LDMs) has enabled unprecedented quality in image generation. However, the key components of the best performing LDM training recipes are oftentimes not available to the research community, preventing apple-to-apple comparisons and hindering the validation of progress in the field. In this work, we perform an in-depth study of LDM training recipes focusing on the performance of models and their training efficiency. To ensure apple-to-apple comparisons, we re-implement five previously published models with their corresponding recipes. Through our study, we explore the effects of (i)~the mechanisms used to condition the generative model on semantic information (e.g., text prompt) and control metadata (e.g., crop size, random flip flag, etc.) on the model performance, and (ii)~the transfer of the representations learned on smaller and lower-resolution datasets to larger ones on the training efficiency and model performance. We then propose a novel conditioning mechanism that disentangles semantic and control metadata conditionings and sets a new state-of-the-art in class-conditional generation on the ImageNet-1k dataset — with FID improvements of 7% on 256 and 8% on 512 resolutions — as well as text-to-image generation on the CC12M dataset — with FID improvements of 8% on 256 and 23% on 512 resolution.

arxiv情報

著者 Tariq Berrada Ifriqi,Pietro Astolfi,Melissa Hall,Reyhane Askari-Hemmat,Yohann Benchetrit,Marton Havasi,Matthew Muckley,Karteek Alahari,Adriana Romero-Soriano,Jakob Verbeek,Michal Drozdzal
発行日 2024-11-05 15:22:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク