要約
画像トークン化により、生のピクセルよりも処理するのが効率的な圧縮された離散表現を提供することにより、自己回帰画像生成の大きな進歩が可能になりました。
従来のアプローチでは2Dグリッドトークン化を使用していますが、Titokのような最近の方法では、1Dトークン化がグリッド冗長性を排除することで高生成品質を達成できることが示されています。
ただし、これらの方法は通常、固定数のトークンを使用するため、画像の固有の複雑さに適応することはできません。
2Dイメージを可変長、注文した1Dトークンシーケンスに投影するトークンザーであるFlextokを紹介します。
たとえば、256×256の画像は、情報を階層的かつ意味的に圧縮して、1〜256個の離散トークンに再サンプリングできます。
整流フローモデルをデコーダーとしてトレーニングし、ネストされたドロップアウトを使用することにより、Flextokは選択したトークンシーケンスの長さに関係なくもっともらしい再構成を生成します。
シンプルなGPTスタイルの変圧器を使用して、自己回帰の生成設定でアプローチを評価します。
Imagenetでは、このアプローチは8〜128トークンにわたってFID <2を達成し、ティトックを上回り、トークンがはるかに少ない最先端の方法を一致させます。
さらに、モデルをテキストコンディショニングされた画像生成にサポートし、Flextokが従来の2Dトークン化とどのように関連するかを調べるためにモデルを拡張します。
重要な発見は、flextokが次のトークンの予測が粗から微細な「視覚語彙」で画像を記述することを可能にし、生成するトークンの数は生成タスクの複雑さに依存することです。
要約(オリジナル)
Image tokenization has enabled major advances in autoregressive image generation by providing compressed, discrete representations that are more efficient to process than raw pixels. While traditional approaches use 2D grid tokenization, recent methods like TiTok have shown that 1D tokenization can achieve high generation quality by eliminating grid redundancies. However, these methods typically use a fixed number of tokens and thus cannot adapt to an image’s inherent complexity. We introduce FlexTok, a tokenizer that projects 2D images into variable-length, ordered 1D token sequences. For example, a 256×256 image can be resampled into anywhere from 1 to 256 discrete tokens, hierarchically and semantically compressing its information. By training a rectified flow model as the decoder and using nested dropout, FlexTok produces plausible reconstructions regardless of the chosen token sequence length. We evaluate our approach in an autoregressive generation setting using a simple GPT-style Transformer. On ImageNet, this approach achieves an FID<2 across 8 to 128 tokens, outperforming TiTok and matching state-of-the-art methods with far fewer tokens. We further extend the model to support to text-conditioned image generation and examine how FlexTok relates to traditional 2D tokenization. A key finding is that FlexTok enables next-token prediction to describe images in a coarse-to-fine 'visual vocabulary', and that the number of tokens to generate depends on the complexity of the generation task.
arxiv情報
著者 | Roman Bachmann,Jesse Allardice,David Mizrahi,Enrico Fini,Oğuzhan Fatih Kar,Elmira Amirloo,Alaaeldin El-Nouby,Amir Zamir,Afshin Dehghan |
発行日 | 2025-02-19 18:59:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google