Draft-and-Revise: Effective Image Generation with Contextual RQ-Transformer

要約

自己回帰モデルは画像生成において有望な成果を上げているが、その一方向的な生成過程は、結果としての画像にグローバルな文脈を十分に反映させることを妨げている。そこで我々は、グローバルな文脈を考慮した効率的な画像生成フレームワークとして、Draft-and-Revise with Contextual RQ-transformerを提案する。一般化されたVQ-VAEとして、RQ-VAEはまず高解像度画像を離散的なコードスタック列として表現する。このシーケンス内のコードスタックをランダムにマスクした後、マスクされていない画像のコンテキストに基づいて、マスクされたコードスタックを埋め込むようにコンテキストRQ-Transformerを学習させる。そして、Contextual RQ-Transformerは、Draft-and-Reviseという2段階の復号化を用いて、画像生成の過程で画像のグローバルコンテキストを利用しながら、画像を生成する。具体的には、まずドラフト段階では、低品質であっても多様な画像を生成することに重点を置いています。そして、revise段階では、生成された画像のグローバルな文脈を保持しつつ、画像の品質を繰り返し向上させるモデルである。実験では、本手法は条件付き画像生成において最先端の結果を得ることができた。また、画像生成における品質と多様性のトレードオフを効果的に制御することで、Draft-and-Revise復号が高い性能を達成できることを検証する。

要約(オリジナル)

Although autoregressive models have achieved promising results on image generation, their unidirectional generation process prevents the resultant images from fully reflecting global contexts. To address the issue, we propose an effective image generation framework of Draft-and-Revise with Contextual RQ-transformer to consider global contexts during the generation process. As a generalized VQ-VAE, RQ-VAE first represents a high-resolution image as a sequence of discrete code stacks. After code stacks in the sequence are randomly masked, Contextual RQ-Transformer is trained to infill the masked code stacks based on the unmasked contexts of the image. Then, Contextual RQ-Transformer uses our two-phase decoding, Draft-and-Revise, and generates an image, while exploiting the global contexts of the image during the generation process. Specifically. in the draft phase, our model first focuses on generating diverse images despite rather low quality. Then, in the revise phase, the model iteratively improves the quality of images, while preserving the global contexts of generated images. In experiments, our method achieves state-of-the-art results on conditional image generation. We also validate that the Draft-and-Revise decoding can achieve high performance by effectively controlling the quality-diversity trade-off in image generation.

arxiv情報

著者 Doyup Lee,Chiheon Kim,Saehoon Kim,Minsu Cho,Wook-Shin Han
発行日 2022-06-09 12:25:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク