Progressive Denoising Model for Fine-Grained Text-to-Image Generation

要約

近年、ベクトル量子化自己回帰(VQ-AR)モデルは、潜在空間における左上から右下への離散的な画像トークンを均等に予測することにより、テキストから画像への合成において顕著な結果を示している。単純な生成プロセスは意外とうまくいくのですが、画像の生成方法はこれでいいのでしょうか?例えば、人間の創造は画像の輪郭から細部に至るまでが重視されるが、VQ-ARモデル自身は各成分の相対的重要性を一切考慮しない。本論文では、高忠実度のテキストから画像への画像生成のためのプログレッシブなノイズ除去モデルを提案する。提案手法は、既存の文脈に基づいて粗いものから細かいものへと新しい画像トークンを並列的に作成することで効果を発揮し、この手順は画像シーケンスが完成するまで再帰的に適用される。この結果、粗いものから細かいものへの階層構造が、画像生成プロセスを直感的で解釈可能なものにする。広範な実験により、プログレッシブモデルは、様々なカテゴリやアスペクトにおいて、FIDスコアにおいて従来のVQ-AR法と比較して、著しく優れた結果をもたらすことが実証された。さらに、従来のARでは、テキストから画像への変換時間が出力画像の解像度に応じて直線的に増加するため、通常サイズの画像であっても非常に時間がかかる。これに対し、本手法は、生成品質と速度のトレードオフを実現することが可能です。

要約(オリジナル)

Recently, vector quantized autoregressive (VQ-AR) models have shown remarkable results in text-to-image synthesis by equally predicting discrete image tokens from the top left to bottom right in the latent space. Although the simple generative process surprisingly works well, is this the best way to generate the image? For instance, human creation is more inclined to the outline-to-fine of an image, while VQ-AR models themselves do not consider any relative importance of each component. In this paper, we present a progressive denoising model for high-fidelity text-to-image image generation. The proposed method takes effect by creating new image tokens from coarse to fine based on the existing context in a parallel manner and this procedure is recursively applied until an image sequence is completed. The resulting coarse-to-fine hierarchy makes the image generation process intuitive and interpretable. Extensive experiments demonstrate that the progressive model produces significantly better results when compared with the previous VQ-AR method in FID score across a wide variety of categories and aspects. Moreover, the text-to-image generation time of traditional AR increases linearly with the output image resolution and hence is quite time-consuming even for normal-size images. In contrast, our approach allows achieving a better trade-off between generation quality and speed.

arxiv情報

著者 Zhengcong Fei,Mingyuan Fan,Junshi Huang,Xiaoming Wei,Xiaolin Wei
発行日 2022-11-04 13:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク