要約
画像トークナイザーは、モデリング用の潜在表現を構築するため、拡散モデル (DM) や自己回帰 (AR) モデルなどの視覚生成モデルにとって重要です。
トークンの長さを増やすことは、画像再構成の品質を向上させる一般的なアプローチです。
ただし、トークン長が長いトークナイザーでは、生成品質が向上するという保証はありません。
トークンの長さに関して、再構築と生成の品質の間にはトレードオフが存在します。
このペーパーでは、画像の再構成と生成の両方に対するトークンの長さの影響を調査し、トレードオフに対する柔軟な解決策を提供します。
私たちは、生成効率と品質の両方を向上させるために自己回帰モデリング中に折りたたむことができる空間的に位置合わせされた画像トークンを提供するセマンティック トークナイザーである ImageFolder を提案します。
トークンの長さを増やさずに代表機能を強化するために、デュアルブランチ積量子化を利用して画像のさまざまなコンテキストをキャプチャします。
具体的には、セマンティック正則化が 1 つのブランチに導入されてセマンティック情報の圧縮が促進され、別のブランチは残りのピクセル レベルの詳細を取得するように設計されています。
広範な実験により、ImageFolder トークナイザーによる優れた画像生成品質と短いトークン長が実証されました。
要約(オリジナル)
Image tokenizers are crucial for visual generative models, e.g., diffusion models (DMs) and autoregressive (AR) models, as they construct the latent representation for modeling. Increasing token length is a common approach to improve the image reconstruction quality. However, tokenizers with longer token lengths are not guaranteed to achieve better generation quality. There exists a trade-off between reconstruction and generation quality regarding token length. In this paper, we investigate the impact of token length on both image reconstruction and generation and provide a flexible solution to the tradeoff. We propose ImageFolder, a semantic tokenizer that provides spatially aligned image tokens that can be folded during autoregressive modeling to improve both generation efficiency and quality. To enhance the representative capability without increasing token length, we leverage dual-branch product quantization to capture different contexts of images. Specifically, semantic regularization is introduced in one branch to encourage compacted semantic information while another branch is designed to capture the remaining pixel-level details. Extensive experiments demonstrate the superior quality of image generation and shorter token length with ImageFolder tokenizer.
arxiv情報
著者 | Xiang Li,Kai Qiu,Hao Chen,Jason Kuen,Jiuxiang Gu,Bhiksha Raj,Zhe Lin |
発行日 | 2024-10-15 17:07:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google