Designing a Better Asymmetric VQGAN for StableDiffusion

要約

StableDiffusion は、画像の生成と編集の世界に一石を投じている、革新的なテキストから画像へのジェネレーターです。
ピクセル空間で拡散モデルを学習する従来の方法とは異なり、StableDiffusion は VQGAN を介して潜在空間で拡散モデルを学習し、効率と品質の両方を保証します。
画像生成タスクをサポートするだけでなく、画像の修復やローカル編集など、実際の画像の画像編集も可能になります。
ただし、StableDiffusion で使用されるバニラ VQGAN では重大な情報損失が発生し、編集されていない画像領域でも歪みアーティファクトが発生することが観察されています。
この目的を達成するために、2 つのシンプルな設計を備えた新しい非対称 VQGAN を提案します。
まず、エンコーダからの入力に加えて、デコーダには、修復におけるマスクされていない画像領域など、タスク固有の事前情報からの情報を組み込む条件付き分岐が含まれています。
第 2 に、デコーダはエンコーダよりもはるかに重いため、総推論コストをわずかに増加させるだけで、より詳細な復元が可能になります。
非対称 VQGAN のトレーニング コストは安く、バニラ VQGAN エンコーダと StableDiffusion を変更せずに、新しい非対称デコーダを再トレーニングするだけで済みます。
当社の非対称 VQGAN は、StableDiffusion ベースの修復手法およびローカル編集手法で広く使用できます。
広範な実験により、元のテキストから画像への変換機能を維持しながら、修復と編集のパフォーマンスが大幅に向上することが実証されました。
コードは \url{https://github.com/buxiangzhiren/Ametric_VQGAN} で入手できます。

要約(オリジナル)

StableDiffusion is a revolutionary text-to-image generator that is causing a stir in the world of image generation and editing. Unlike traditional methods that learn a diffusion model in pixel space, StableDiffusion learns a diffusion model in the latent space via a VQGAN, ensuring both efficiency and quality. It not only supports image generation tasks, but also enables image editing for real images, such as image inpainting and local editing. However, we have observed that the vanilla VQGAN used in StableDiffusion leads to significant information loss, causing distortion artifacts even in non-edited image regions. To this end, we propose a new asymmetric VQGAN with two simple designs. Firstly, in addition to the input from the encoder, the decoder contains a conditional branch that incorporates information from task-specific priors, such as the unmasked image region in inpainting. Secondly, the decoder is much heavier than the encoder, allowing for more detailed recovery while only slightly increasing the total inference cost. The training cost of our asymmetric VQGAN is cheap, and we only need to retrain a new asymmetric decoder while keeping the vanilla VQGAN encoder and StableDiffusion unchanged. Our asymmetric VQGAN can be widely used in StableDiffusion-based inpainting and local editing methods. Extensive experiments demonstrate that it can significantly improve the inpainting and editing performance, while maintaining the original text-to-image capability. The code is available at \url{https://github.com/buxiangzhiren/Asymmetric_VQGAN}.

arxiv情報

著者 Zixin Zhu,Xuelu Feng,Dongdong Chen,Jianmin Bao,Le Wang,Yinpeng Chen,Lu Yuan,Gang Hua
発行日 2023-06-07 17:56:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク