要約
既存の画像トークナイザーのほとんどは、画像を固定数のトークンまたはパッチにエンコードし、画像の複雑さにおける固有の変動性を見落としています。
これに対処するために、画像コンテンツに基づいて表現能力を動的に調整し、より単純な画像をより少ないトークンにエンコードするコンテンツ アダプティブ トークナイザー (CAT) を導入します。
私たちは、大規模言語モデル (LLM) を活用してコンテンツの複雑さを予測し、人間の知覚に重要な要素を考慮して特定の画像の最適な圧縮率を決定するキャプションベースの評価システムを設計します。
さまざまな圧縮率の画像でトレーニングされた CAT は、画像再構成において堅牢なパフォーマンスを示します。
また、その可変長潜在表現を利用して、ImageNet 生成用の拡散変換器 (DiT) をトレーニングします。
トークン割り当てを最適化することで、CAT は同じフロップでトレーニングされた固定比率ベースラインよりも FID スコアを向上させ、推論スループットを 18.5% 向上させます。
要約(オリジナル)
Most existing image tokenizers encode images into a fixed number of tokens or patches, overlooking the inherent variability in image complexity. To address this, we introduce Content-Adaptive Tokenizer (CAT), which dynamically adjusts representation capacity based on the image content and encodes simpler images into fewer tokens. We design a caption-based evaluation system that leverages large language models (LLMs) to predict content complexity and determine the optimal compression ratio for a given image, taking into account factors critical to human perception. Trained on images with diverse compression ratios, CAT demonstrates robust performance in image reconstruction. We also utilize its variable-length latent representations to train Diffusion Transformers (DiTs) for ImageNet generation. By optimizing token allocation, CAT improves the FID score over fixed-ratio baselines trained with the same flops and boosts the inference throughput by 18.5%.
arxiv情報
著者 | Junhong Shen,Kushal Tirumala,Michihiro Yasunaga,Ishan Misra,Luke Zettlemoyer,Lili Yu,Chunting Zhou |
発行日 | 2025-01-06 16:28:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google