Layered Diffusion Model for One-Shot High Resolution Text-to-Image Synthesis

要約

自然言語の記述から高解像度の画像を生成できる、ワンショットのテキストから画像への拡散モデルを紹介します。
私たちのモデルは、複数の解像度スケールで画像を同時に合成する階層化された U-Net アーキテクチャを採用しています。
この方法は、ステップごとの計算コストを削減しながら、ターゲット解像度でのみ画像を合成するベースラインよりも優れたパフォーマンスを発揮することを示します。
超解像度合成に追加のモデルを必要とする他の方法とは対照的に、追加の解像度スケールで畳み込みを階層化することで、より高解像度の合成を実現できることを実証します。

要約(オリジナル)

We present a one-shot text-to-image diffusion model that can generate high-resolution images from natural language descriptions. Our model employs a layered U-Net architecture that simultaneously synthesizes images at multiple resolution scales. We show that this method outperforms the baseline of synthesizing images only at the target resolution, while reducing the computational cost per step. We demonstrate that higher resolution synthesis can be achieved by layering convolutions at additional resolution scales, in contrast to other methods which require additional models for super-resolution synthesis.

arxiv情報

著者 Emaad Khwaja,Abdullah Rashwan,Ting Chen,Oliver Wang,Suraj Kothawade,Yeqing Li
発行日 2024-07-08 16:25:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク