Megapixel Image Generation with Step-Unrolled Denoising Autoencoders

要約

生成モデリング研究の継続的な傾向は、トレーニングとサンプリングの計算要件を同時に削減しながら、サンプルの解像度を高くすることです。
私たちは、技術の組み合わせによってこの傾向をさらに推し進めることを目指しています。各コンポーネントは、それぞれの分野における現在の最高効率を表しています。
これらには、ベクトル量子化GAN(VQ-GAN)が含まれます。これは、高レベルの非可逆圧縮が可能なベクトル量子化(VQ)モデルですが、知覚的には重要ではありません。
砂時計トランスフォーマー、高度にスケーラブルな自己注意モデル。
非自動回帰(NAR)テキスト生成モデルであるステップアンロールノイズ除去オートエンコーダー(SUNDAE)。
予期せぬことに、私たちの方法は、多次元データに適用された場合、砂時計変圧器の元の定式化の弱点を浮き彫りにします。
これに照らして、階層トランスフォーマーを多次元データに適用するあらゆるタスクに適用可能な、リサンプリングメカニズムの変更を提案します。
さらに、SUNDAEの長いシーケンス長(以前の作業の4倍)に対するスケーラビリティを示します。
提案されたフレームワークは、高解像度($ 1024 \ times 1024 $)に拡張され、迅速にトレーニングされます(2〜4日)。
重要なのは、トレーニングされたモデルが、コンシューマーグレードのGPU(GTX 1080Ti)で約2秒で多様で現実的なメガピクセルサンプルを生成することです。
一般に、フレームワークは柔軟性があります。任意の数のサンプリングステップ、サンプルごとの自己停止、自己修正機能、条件付き生成、および任意の修復マスクを可能にするNAR定式化をサポートします。
FFHQ256で10.56のFIDスコア(サンプリングステップの半分未満で元のVQ-GANに近い)を取得し、わずか100のサンプリングステップでFFHQ1024で21.85を取得します。

要約(オリジナル)

An ongoing trend in generative modelling research has been to push sample resolutions higher whilst simultaneously reducing computational requirements for training and sampling. We aim to push this trend further via the combination of techniques – each component representing the current pinnacle of efficiency in their respective areas. These include vector-quantized GAN (VQ-GAN), a vector-quantization (VQ) model capable of high levels of lossy – but perceptually insignificant – compression; hourglass transformers, a highly scaleable self-attention model; and step-unrolled denoising autoencoders (SUNDAE), a non-autoregressive (NAR) text generative model. Unexpectedly, our method highlights weaknesses in the original formulation of hourglass transformers when applied to multidimensional data. In light of this, we propose modifications to the resampling mechanism, applicable in any task applying hierarchical transformers to multidimensional data. Additionally, we demonstrate the scalability of SUNDAE to long sequence lengths – four times longer than prior work. Our proposed framework scales to high-resolutions ($1024 \times 1024$) and trains quickly (2-4 days). Crucially, the trained model produces diverse and realistic megapixel samples in approximately 2 seconds on a consumer-grade GPU (GTX 1080Ti). In general, the framework is flexible: supporting an arbitrary number of sampling steps, sample-wise self-stopping, self-correction capabilities, conditional generation, and a NAR formulation that allows for arbitrary inpainting masks. We obtain FID scores of 10.56 on FFHQ256 – close to the original VQ-GAN in less than half the sampling steps – and 21.85 on FFHQ1024 in only 100 sampling steps.

arxiv情報

著者 Alex F. McKinney,Chris G. Willcocks
発行日 2022-06-24 15:47:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク