SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer

要約

高い圧縮率を備えた効率的な画像トークン化は、生成モデルのトレーニングにとって依然として重要な課題です。
我々は、ソフトカテゴリ事後を活用して複数のコードワードを各潜在トークンに集約し、潜在空間の表現能力を大幅に向上させる連続画像トークナイザーであるSoftVQ-VAEを紹介します。
Transformer ベースのアーキテクチャに適用すると、私たちのアプローチは 32 または 64 個の 1 次元トークンを使用して 256×256 および 512×512 の画像を圧縮します。
SoftVQ-VAE は、一貫した高品質の再構成を示すだけでなく、さらに重要なことに、さまざまなノイズ除去ベースの生成モデルにわたって最先端の大幅に高速な画像生成結果を実現します。
注目すべきことに、SoftVQ-VAE は、SiT-XL で 1.78 および 2.21 という競争力のある FID スコアを達成しながら、推論スループットを 256×256 画像の生成で最大 18 倍、512×512 画像の生成で最大 55 倍向上させます。
また、同等のパフォーマンスを維持しながらトレーニングの反復回数を 2.3 倍に削減することで、生成モデルのトレーニング効率も向上します。
私たちの実験は、SoftVQ-VAE がその完全微分可能な設計とセマンティックが豊富な潜在空間により、生成品質を損なうことなく効率的なトークン化を実現し、より効率的な生成モデルへの道を開くことを実証しました。
コードとモデルが公開されています。

要約(オリジナル)

Efficient image tokenization with high compression ratios remains a critical challenge for training generative models. We present SoftVQ-VAE, a continuous image tokenizer that leverages soft categorical posteriors to aggregate multiple codewords into each latent token, substantially increasing the representation capacity of the latent space. When applied to Transformer-based architectures, our approach compresses 256×256 and 512×512 images using as few as 32 or 64 1-dimensional tokens. Not only does SoftVQ-VAE show consistent and high-quality reconstruction, more importantly, it also achieves state-of-the-art and significantly faster image generation results across different denoising-based generative models. Remarkably, SoftVQ-VAE improves inference throughput by up to 18x for generating 256×256 images and 55x for 512×512 images while achieving competitive FID scores of 1.78 and 2.21 for SiT-XL. It also improves the training efficiency of the generative models by reducing the number of training iterations by 2.3x while maintaining comparable performance. With its fully-differentiable design and semantic-rich latent space, our experiment demonstrates that SoftVQ-VAE achieves efficient tokenization without compromising generation quality, paving the way for more efficient generative models. Code and model are released.

arxiv情報

著者 Hao Chen,Ze Wang,Xiang Li,Ximeng Sun,Fangyi Chen,Jiang Liu,Jindong Wang,Bhiksha Raj,Zicheng Liu,Emad Barsoum
発行日 2024-12-20 16:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク