要約
画像トークナイザーは、画像を離散トークンのシーケンスにマッピングし、自己回帰トランスフォーマーベースの画像生成の重要なコンポーネントです。
通常、トークンは入力画像内の空間位置に関連付けられ、ラスター スキャン順に配置されますが、これは自己回帰モデリングには理想的ではありません。
この論文では、代わりに、離散ウェーブレット変換 (DWT) から得られた画像スペクトルをトークン化し、トークンのシーケンスが粗いものから細かいものへの方法で画像を表すようにすることを提案します。
私たちのトークナイザーはいくつかの利点をもたらします: 1) 自然画像は高周波でより圧縮可能であることを利用します、2) 再トレーニングせずに異なる解像度の画像を取得して再構築できます、3) 条件付けではなく、次のトークン予測の条件付けを改善します。
画像の部分的なラインごとの再構成では、画像全体の粗い再構成が必要になります。4) 最初に生成されたいくつかのトークンで画像の粗いバージョンを再構成できる部分的なデコードが可能になります。5)
これにより、自己回帰モデルを画像のアップサンプリングに使用できるようになります。
トークナイザーの再構築メトリクス、マルチスケール画像生成、テキストガイド付き画像のアップサンプリングと編集を評価します。
要約(オリジナル)
Image tokenizers map images to sequences of discrete tokens, and are a crucial component of autoregressive transformer-based image generation. The tokens are typically associated with spatial locations in the input image, arranged in raster scan order, which is not ideal for autoregressive modeling. In this paper, we propose to tokenize the image spectrum instead, obtained from a discrete wavelet transform (DWT), such that the sequence of tokens represents the image in a coarse-to-fine fashion. Our tokenizer brings several advantages: 1) it leverages that natural images are more compressible at high frequencies, 2) it can take and reconstruct images of different resolutions without retraining, 3) it improves the conditioning for next-token prediction — instead of conditioning on a partial line-by-line reconstruction of the image, it takes a coarse reconstruction of the full image, 4) it enables partial decoding where the first few generated tokens can reconstruct a coarse version of the image, 5) it enables autoregressive models to be used for image upsampling. We evaluate the tokenizer reconstruction metrics as well as multiscale image generation, text-guided image upsampling and editing.
arxiv情報
著者 | Carlos Esteves,Mohammed Suhail,Ameesh Makadia |
発行日 | 2024-12-12 18:59:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google