An Image is Worth 32 Tokens for Reconstruction and Generation

要約

生成モデルの最近の進歩により、高解像度画像の効率的な合成における画像トークン化の重要な役割が浮き彫りになりました。
画像を潜在的な表現に変換するトークン化により、ピクセルを直接処理する場合と比較して計算量が削減され、生成プロセスの有効性と効率が向上します。
VQGAN などの従来の方法は、通常、固定のダウンサンプリング係数を持つ 2D 潜在グリッドを利用します。
ただし、これらの 2D トークン化は、隣接する領域が類似性を示すことが多いため、画像に存在する固有の冗長性を管理するという課題に直面しています。
この問題を解決するために、画像を 1D 潜在シーケンスにトークン化する革新的なアプローチである Transformer-based 1-Dimensional Tokenizer (TiTok) を導入します。
TiTok は、よりコンパクトな潜在表現を提供し、従来の技術よりも大幅に効率的かつ効果的な表現を実現します。
たとえば、256 x 256 x 3 の画像はわずか 32 個の個別のトークンに減らすことができ、これは従来の方法で得られた 256 個または 1024 個のトークンに比べて大幅に減少します。
TiTok はコンパクトな性質にもかかわらず、最先端のアプローチに対して競争力のあるパフォーマンスを実現します。
具体的には、同じジェネレータ フレームワークを使用して、TiTok は 1.97 gFID を達成し、ImageNet 256 x 256 ベンチマークで MaskGIT ベースラインを 4.21 大幅に上回りました。
TiTok の利点は、高解像度になるとさらに重要になります。
ImageNet 512 x 512 ベンチマークでは、TiTok は最先端の拡散モデル DiT-XL/2 (gFID 2.74 対 3.04) を上回るパフォーマンスを示しただけでなく、イメージ トークンを 64 倍削減し、生成プロセスが 410 倍高速化しました。
当社の最高パフォーマンスのバリアントは、DiT-XL/2 (gFID 2.13 対 3.04) を大幅に上回りながら、高品質のサンプルを 74 倍の速度で生成できます。

要約(オリジナル)

Recent advancements in generative models have highlighted the crucial role of image tokenization in the efficient synthesis of high-resolution images. Tokenization, which transforms images into latent representations, reduces computational demands compared to directly processing pixels and enhances the effectiveness and efficiency of the generation process. Prior methods, such as VQGAN, typically utilize 2D latent grids with fixed downsampling factors. However, these 2D tokenizations face challenges in managing the inherent redundancies present in images, where adjacent regions frequently display similarities. To overcome this issue, we introduce Transformer-based 1-Dimensional Tokenizer (TiTok), an innovative approach that tokenizes images into 1D latent sequences. TiTok provides a more compact latent representation, yielding substantially more efficient and effective representations than conventional techniques. For example, a 256 x 256 x 3 image can be reduced to just 32 discrete tokens, a significant reduction from the 256 or 1024 tokens obtained by prior methods. Despite its compact nature, TiTok achieves competitive performance to state-of-the-art approaches. Specifically, using the same generator framework, TiTok attains 1.97 gFID, outperforming MaskGIT baseline significantly by 4.21 at ImageNet 256 x 256 benchmark. The advantages of TiTok become even more significant when it comes to higher resolution. At ImageNet 512 x 512 benchmark, TiTok not only outperforms state-of-the-art diffusion model DiT-XL/2 (gFID 2.74 vs. 3.04), but also reduces the image tokens by 64x, leading to 410x faster generation process. Our best-performing variant can significantly surpasses DiT-XL/2 (gFID 2.13 vs. 3.04) while still generating high-quality samples 74x faster.

arxiv情報

著者 Qihang Yu,Mark Weber,Xueqing Deng,Xiaohui Shen,Daniel Cremers,Liang-Chieh Chen
発行日 2024-06-11 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク