Rethinking the Objectives of Vector-Quantized Tokenizers for Image Synthesis

要約

ベクトル量子化(VQ)ベースの生成モデルは通常2つの基本コンポーネント、すなわちVQトークナイザーと生成変換器から構成される。先行研究では、VQ トークナイザの再構成精度の向上に焦点が当てられているが、再構成精度の向上が生成変換器の生成能力にどのような影響を与えるかについてはほとんど検討されていない。本論文では、驚くべきことに、VQトークナイザーの再構成忠実度を向上させても、必ずしも生成は向上しないことを見出した。むしろ、VQトークン化器の意味的特徴の圧縮を学習することで、生成変換器のテクスチャや構造を捉える能力が大幅に向上する。このように、我々は画像合成のためのVQトークナイザーの2つの競合する目的、すなわち意味的圧縮とディテール保存を強調する。本研究では、この2つの目的を両立させるために、2つの学習段階を持つSemantic-Quantized GAN (SeQ-GAN)を提案する。第一段階では、より良い意味的圧縮のために、意味的に強化された知覚的損失を提案する。第二段階では、エンコーダとコードブックを固定し、デコーダを強化・微調整することで、より良いディテール保存を実現する。提案するSeQ-GANは、VQベースの生成モデルを大幅に改善し、無条件および条件付き画像生成の両方でGANおよび拡散モデルを上回る。我々のSeQ-GAN(364M)は256×256のImageNet生成においてFrechet Inception Distance(FID)6.25、Inception Score(IS)140.9を達成し、VIT-VQGAN(714M)が得たFID 11.2 、IS 97.2に対して著しい改善を示している。

要約(オリジナル)

Vector-Quantized (VQ-based) generative models usually consist of two basic components, i.e., VQ tokenizers and generative transformers. Prior research focuses on improving the reconstruction fidelity of VQ tokenizers but rarely examines how the improvement in reconstruction affects the generation ability of generative transformers. In this paper, we surprisingly find that improving the reconstruction fidelity of VQ tokenizers does not necessarily improve the generation. Instead, learning to compress semantic features within VQ tokenizers significantly improves generative transformers’ ability to capture textures and structures. We thus highlight two competing objectives of VQ tokenizers for image synthesis: semantic compression and details preservation. Different from previous work that only pursues better details preservation, we propose Semantic-Quantized GAN (SeQ-GAN) with two learning phases to balance the two objectives. In the first phase, we propose a semantic-enhanced perceptual loss for better semantic compression. In the second phase, we fix the encoder and codebook, but enhance and finetune the decoder to achieve better details preservation. The proposed SeQ-GAN greatly improves VQ-based generative models and surpasses the GAN and Diffusion Models on both unconditional and conditional image generation. Our SeQ-GAN (364M) achieves Frechet Inception Distance (FID) of 6.25 and Inception Score (IS) of 140.9 on 256×256 ImageNet generation, a remarkable improvement over VIT-VQGAN (714M), which obtains 11.2 FID and 97.2 IS.

arxiv情報

著者 Yuchao Gu,Xintao Wang,Yixiao Ge,Ying Shan,Xiaohu Qie,Mike Zheng Shou
発行日 2022-12-06 17:58:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク