eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers

要約

大規模な拡散ベースの生成モデルは、テキストを条件とする高解像度画像合成のブレークスルーにつながった。このようなテキスト-画像拡散モデルは、ランダムなノイズから出発し、テキストプロンプトを条件としながら、反復的に画像を合成していく。この過程で、合成の挙動が質的に変化することを見出した。サンプリングの初期には、テキストプロンプトに強く依存してテキストに沿ったコンテンツを生成し、後期には、テキストの条件付けはほとんど無視される。このことは、生成プロセス全体を通してモデルパラメータを共有することが理想的でない可能性を示唆している。そこで、既存の研究とは対照的に、異なる合成段階に特化したテキストから画像への拡散モデルのアンサンブルを学習することを提案する。学習効率を維持するため、最初に単一のモデルを学習し、その後、反復生成プロセスの特定のステージのために学習される特殊なモデルに分割されます。eDiff-Iと呼ばれる我々の拡散モデルのアンサンブルは、同じ推論計算コストで高い視覚的品質を保ちながらテキストアライメントを改善し、標準ベンチマークにおいて過去の大規模テキスト-画像拡散モデルを凌駕する結果を得ることができました。さらに、T5テキスト、CLIPテキスト、CLIP画像などの様々な埋め込みを利用した条件付けを行うようモデルを学習させる。我々は、これらの異なる埋め込みが異なる挙動をもたらすことを示す。特に、CLIP画像埋め込みは、参照画像のスタイルをターゲットテキストから画像への出力に直感的に伝達する方法を可能にします。最後に、eDiff-Iの「paint-with-words」機能を実現する技術を紹介する。ユーザは入力テキスト中の単語を選択してキャンバスにペイントし、出力を制御することができますので、希望するイメージを念頭に置いて工作するのに非常に便利です。プロジェクトページは、https://deepimagination.cc/eDiff-I/ で公開されています。

要約(オリジナル)

Large-scale diffusion-based generative models have led to breakthroughs in text-conditioned high-resolution image synthesis. Starting from random noise, such text-to-image diffusion models gradually synthesize images in an iterative fashion while conditioning on text prompts. We find that their synthesis behavior qualitatively changes throughout this process: Early in sampling, generation strongly relies on the text prompt to generate text-aligned content, while later, the text conditioning is almost entirely ignored. This suggests that sharing model parameters throughout the entire generation process may not be ideal. Therefore, in contrast to existing works, we propose to train an ensemble of text-to-image diffusion models specialized for different synthesis stages. To maintain training efficiency, we initially train a single model, which is then split into specialized models that are trained for the specific stages of the iterative generation process. Our ensemble of diffusion models, called eDiff-I, results in improved text alignment while maintaining the same inference computation cost and preserving high visual quality, outperforming previous large-scale text-to-image diffusion models on the standard benchmark. In addition, we train our model to exploit a variety of embeddings for conditioning, including the T5 text, CLIP text, and CLIP image embeddings. We show that these different embeddings lead to different behaviors. Notably, the CLIP image embedding allows an intuitive way of transferring the style of a reference image to the target text-to-image output. Lastly, we show a technique that enables eDiff-I’s ‘paint-with-words’ capability. A user can select the word in the input text and paint it in a canvas to control the output, which is very handy for crafting the desired image in mind. The project page is available at https://deepimagination.cc/eDiff-I/

arxiv情報

著者 Yogesh Balaji,Seungjun Nah,Xun Huang,Arash Vahdat,Jiaming Song,Karsten Kreis,Miika Aittala,Timo Aila,Samuli Laine,Bryan Catanzaro,Tero Karras,Ming-Yu Liu
発行日 2022-11-08 17:33:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク