要約
ビジョントークナイザーは、そのスケーラビリティとコンパクト性から多くの注目を集めているが、これまでの研究は、旧来のGANベースのハイパーパラメータに依存しており、偏った比較や、スケーリング挙動の包括的な分析が不十分であった。これらの問題に取り組むため、我々は、球面コードブック初期化とルックアップ正則化を特徴とするGrouped Spherical Quantization (GSQ)を導入し、コードブックレイテントを球面に拘束する。GSQ-GANは、より少ない学習反復回数で、最新の手法よりも優れた再構成品質を達成することが、画像トークン化器の学習戦略に関する我々の経験的分析により実証され、スケーリング研究のための強固な基盤を提供する。これに基づき、我々はGSQのスケーリング挙動、特に潜在次元数、コードブックサイズ、圧縮率、およびそれらがモデル性能に与える影響を系統的に調べる。その結果、空間圧縮レベルが高い場合と低い場合で異なる挙動が明らかになり、高次元潜在空間を表現する際の課題が浮き彫りになった。我々は、GSQが高次元潜在をコンパクトな低次元空間に再構築できることを示し、その結果、品質向上とともに効率的なスケーリングが可能になることを示す。その結果、GSQ-GANは再構成FID(rFID)0.50で16倍のダウンサンプリングを達成した。
要約(オリジナル)
Vision tokenizers have gained a lot of attraction due to their scalability and compactness; previous works depend on old-school GAN-based hyperparameters, biased comparisons, and a lack of comprehensive analysis of the scaling behaviours. To tackle those issues, we introduce Grouped Spherical Quantization (GSQ), featuring spherical codebook initialization and lookup regularization to constrain codebook latent to a spherical surface. Our empirical analysis of image tokenizer training strategies demonstrates that GSQ-GAN achieves superior reconstruction quality over state-of-the-art methods with fewer training iterations, providing a solid foundation for scaling studies. Building on this, we systematically examine the scaling behaviours of GSQ, specifically in latent dimensionality, codebook size, and compression ratios, and their impact on model performance. Our findings reveal distinct behaviours at high and low spatial compression levels, underscoring challenges in representing high-dimensional latent spaces. We show that GSQ can restructure high-dimensional latent into compact, low-dimensional spaces, thus enabling efficient scaling with improved quality. As a result, GSQ-GAN achieves a 16x down-sampling with a reconstruction FID (rFID) of 0.50.
arxiv情報
著者 | Jiangtao Wang,Zhen Qin,Yifan Zhang,Vincent Tao Hu,Björn Ommer,Rania Briq,Stefan Kesselheim |
発行日 | 2024-12-03 18:01:45+00:00 |
arxivサイト | arxiv_id(pdf) |