Factorized Visual Tokenization and Generation

要約

ビジュアルトークナイザーは画像生成の基礎です。
視覚データを個別のトークンに変換し、トランスフォーマーベースのモデルが優れた画像生成を行えるようにします。
VQGAN のような VQ ベースのトークナイザーは成功にもかかわらず、語彙サイズの制約により大きな制限に直面しています。
コードブックを単純に拡張すると、トレーニングが不安定になり、パフォーマンスの向上が減少することが多く、スケーラビリティが重要な課題になります。
この研究では、大きなコードブックを複数の独立したサブコードブックに分解することで VQ ベースのトークナイザーを活性化する新しいアプローチである因数分解量子化 (FQ) を紹介します。
この因数分解により、大規模なコードブックの検索の複雑さが軽減され、より効率的でスケーラブルな視覚的なトークン化が可能になります。
各サブコードブックが個別の相補的な情報を確実に捕捉するために、冗長性を明示的に削減し、サブコードブック全体の多様性を促進するデエンタングルメント正則化を提案します。
さらに、表現学習をトレーニング プロセスに統合し、CLIP や DINO などの事前トレーニング済みビジョン モデルを活用して、学習された表現に意味論的な豊かさを注入します。
この設計により、トークナイザーは多様なセマンティック レベルを確実に捕捉し、より表現力豊かでもつれのない表現を実現します。
実験の結果、提案された FQGAN モデルが視覚的トークナイザーの再構成品質を大幅に向上させ、最先端のパフォーマンスを達成することが示されました。
さらに、このトークナイザーを自己回帰画像生成に効果的に適用できることを示します。
https://showlab.github.io/FQGAN

要約(オリジナル)

Visual tokenizers are fundamental to image generation. They convert visual data into discrete tokens, enabling transformer-based models to excel at image generation. Despite their success, VQ-based tokenizers like VQGAN face significant limitations due to constrained vocabulary sizes. Simply expanding the codebook often leads to training instability and diminishing performance gains, making scalability a critical challenge. In this work, we introduce Factorized Quantization (FQ), a novel approach that revitalizes VQ-based tokenizers by decomposing a large codebook into multiple independent sub-codebooks. This factorization reduces the lookup complexity of large codebooks, enabling more efficient and scalable visual tokenization. To ensure each sub-codebook captures distinct and complementary information, we propose a disentanglement regularization that explicitly reduces redundancy, promoting diversity across the sub-codebooks. Furthermore, we integrate representation learning into the training process, leveraging pretrained vision models like CLIP and DINO to infuse semantic richness into the learned representations. This design ensures our tokenizer captures diverse semantic levels, leading to more expressive and disentangled representations. Experiments show that the proposed FQGAN model substantially improves the reconstruction quality of visual tokenizers, achieving state-of-the-art performance. We further demonstrate that this tokenizer can be effectively adapted into auto-regressive image generation. https://showlab.github.io/FQGAN

arxiv情報

著者 Zechen Bai,Jianxiong Gao,Ziteng Gao,Pichao Wang,Zheng Zhang,Tong He,Mike Zheng Shou
発行日 2024-11-25 18:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク